APIServer 访问日志中 userAgent、uri、verb 等维度的组合数量可达数万级别(例如 50 x 100 x 10 = 5万),直接排查如同大海捞针。使用 SLS Processing Language(SPL)可以分两步高效定位:
- 全局异常检测:先忽略所有维度,将日志聚合为全局 QPS 时序指标,再用
series_decompose_anomalies算子识别异常时间段和异常分数。 - 根因下探定位:确定异常时间段后,使用
series_drilldown算子对 userAgent、verb、resource 等维度进行根因分析,自动识别导致异常的具体维度组合。
例如算法可能返回 verb=GET, resource=leases 为根因组合,说明读取 leases 资源的请求异常上升,进而可以进一步检查 etcd 性能、网络延迟或节点状态。