2026 年 AIOps 的关键进化是从「人看数据」进化为「Agent 管 Agent」,Elastic、Dynatrace 等厂商推出的 AI-SRE Agent 能够执行 Sense-Think-Act-Verify 的自治闭环。**Sense(感知)**阶段通过 OpenTelemetry gen_ai Span 统一采集 Agent 行为信号;**Think(思考)**阶段利用动态 SLO burn rate 计算、异常检测和因果推断,结合 Agent 追踪树区分「模型问题」与「工具问题」;**Act(行动)**阶段由运维 Agent 基于可观测数据理解业务 Agent 状态,执行自动回滚、扩容、重启或工单创建;**Verify(验证)**阶段对比修复前后的 Agent Trace,自动压测并确认行为回归正常。例如,某云服务商的自动扩容 Agent 因上下文窗口溢出导致决策循环,运维 Agent 通过追踪发现 input_tokens 在 10 分钟内从 8K 飙升至 380K,自动切断执行链路并触发清理工作流,整个事件从发生到遏制仅耗时 45 秒。
加载中...