Agent 可观测性可归纳为四个核心观测维度,分别对应 Agent 架构的关键环节:
规划(Planning)维度:关注 Agent 如何将复杂任务拆解为子任务序列。关键观测信号包括任务分解步骤数、重规划(Re-planning)触发频次、规划阶段 Token 消耗,以及执行计划与初始规划的吻合度。高频重规划往往意味着 Agent 对任务理解存在偏差。
推理(Reasoning)维度:关注 Agent 在每一步决策中的思考过程。通过记录 Chain-of-Thought(CoT,思维链)或推理轨迹,可以分析模型在何种上下文中做出了特定选择。这一维度对调试 Agent 行为和优化提示词(Prompt Engineering)策略具有重要价值。
工具调用(Tool Calling)维度:关注 Agent 与外部系统的交互行为,包括工具选择标准、参数填充准确性、调用成功率与延迟、重试次数,以及工具返回结果被模型正确理解的比例。工具调用失败是 Agent 应用中常见的故障点。
记忆(Memory)维度:关注 Agent 的上下文管理和长期记忆机制。观测信号涵盖上下文窗口(Context Window)利用率、检索增强生成(RAG)检索结果的相关性评分、向量数据库查询延迟与命中率,以及记忆更新操作的完整性。