get_log_patterns是日志聚类引擎的核心SPL算子,用于从海量日志中自动发现和归纳重复模式。其工作原理是对输入的日志数据进行模式识别,将结构相似但细节不同的日志归为同一类别(Pattern)。算子会智能识别日志中的变量部分(如数字、枚举值、复合变量),将其替换为通配符,从而提炼出日志的模板结构。例如,"Connection timeout after 3000ms to 10.0.0.1"和"Connection timeout after 5000ms to 10.0.0.2"会被识别为同一模式。get_log_patterns采用了Bernoulli采样技术来处理大规模数据,在保证模式发现准确性的同时大幅降低计算开销。该算子的输出包括每个模式的模板、匹配日志数量、占比等统计信息,帮助用户快速了解日志分布。最重要的是,该算子在查询时实时计算,不产生额外的索引流量。
加载中...