EMR平台选择在客户端侧进行日志实时分析是基于多重技术和成本考量。首先,EMR集群通常产生海量日志,如果全量传输到中心端会带来巨大的网络带宽和存储成本。其次,中心端集中分析存在处理延迟,不利于实时问题发现和告警。第三,EMR的大部分日志属于常规运行信息,真正需要关注的异常事件占比很小(通常不到10%),在客户端侧过滤可以极大减少无效数据传输。Logtail的高性能处理引擎确保了客户端分析不会对EMR节点的业务负载造成明显影响。此外,客户端分析还具有更好的可扩展性——随着集群规模增长,分析能力随节点数线性扩展,无需扩容中心端资源。这种分布式分析架构符合大数据平台的设计理念。
加载中...