Bernoulli采样是日志聚类引擎实现高性能查询时计算的核心技术。在查询时聚类的架构下,引擎需要在用户查询的等待时间内完成大量日志的模式分析,直接全量扫描在数据量大时会导致不可接受的延迟。Bernoulli采样的原理是以固定概率p独立地对每条日志进行采样决策,被采样到的日志参与聚类计算。这种方法的数学特性保证了当样本量足够时,发现的模式分布与全量数据高度一致。引擎会根据查询范围内的日志总量动态调整采样率:数据量小时使用高采样率甚至全量计算;数据量极大时降低采样率以控制计算时间。由于高频模式即使在低采样率下也能被可靠识别,因此采样对主要模式的发现不会造成遗漏。同时,每个模式的日志数量会根据采样率进行统计校正,确保占比估计的准确性。
加载中...