Agent 可观测性是指在 Agent(智能体)架构的应用系统中,通过采集、存储和分析分布在规划、推理、工具执行和记忆管理等环节的信号,实现对 Agent 内部运行状态的全链路洞察能力。
与传统应用监控相比,Agent 可观测性有三个显著区别:多跳执行链的可追踪性,Agent 完成一次用户请求通常涉及多次 LLM 调用和工具调用,需要完整的分布式链路追踪,而非简单的单次请求监控;语义级洞察需求,传统监控关注"耗时多少""错误率多少",而 Agent 可观测性还需要理解"模型在思考什么""为什么选择了某个工具",这要求记录 Chain-of-Thought 等推理轨迹;动态自治行为的治理,Agent 的执行路径可能因输入不同而动态变化,要求可观测系统能够适应动态拓扑的采集与分析,而非基于固定接口的被动监控。
此外,Agent 可观测性继承并扩展了传统软件可观测性的三大支柱——日志(Logs)、指标(Metrics)和链路追踪(Traces),同时引入了面向生成式 AI 的语义规范,使得运维团队能够穿透多层抽象、还原完整执行链路。