在阿里云提出的以 Operation Intelligence 为核心的 AIOps 新范式中,可观测平台扮演着"感知神经系统"的角色,而 Agent 可观测性则是构建自治闭环的数据基石。AIOps Agent 的自治闭环可概括为四个环节,每个环节都深度依赖可观测数据:
观测感知:依托阿里云可观测平台的多源数据采集能力,AIOps Agent 持续接收来自应用监控、基础设施监控、日志分析和链路追踪的数据流,形成对系统运行状态的实时认知。没有全面的可观测数据,Agent 就处于"盲操作"状态。
异常检测:基于规则引擎和智能算法的结合,AIOps Agent 识别偏离正常基线的行为模式。规则引擎覆盖常见异常场景,具有确定性高、可解释性强、执行速度快的优势;而历史可观测数据则为智能算法提供训练基础。
根因诊断:当异常被检测到时,AIOps Agent 利用链路追踪数据和事件关联分析,在调用链、日志序列和指标时序之间进行交叉定位。UModel 数字孪生技术使得这一过程可以在不影响生产环境的情况下进行模拟推演。
修复执行:对于具备明确修复路径的异常,AIOps Agent 可以触发预定义修复动作,如重启实例、调整限流策略、切换流量等。
此外,运维 Agent 自身的行为也需要被记录和分析,这种"元可观测性"能力是确保自治运维安全、可控、可审计的重要保障。