Agent 的感知-决策-行动闭环对可观测性提出了远超传统微服务的要求,三支柱必须全面升级以捕获 Agent 内部不可见的"认知过程"。
1. Agent Trace:从扁平调用链到层级推理树
传统 Trace 由 Service Span 组成,反映请求在服务间的跳转。而 Agent 的任务执行本质是推理与工具调用交替进行的层级树状结构。以 OpenTelemetry GenAI Semantic Conventions 为例,Trace 应包含 Agent Task Span → LLM Invocation Span → Retrieval Span → Tool Call Span → 第二轮 LLM Invocation Span 等层级,每一次调用都带有标准化语义标签。这让运维团队能端到端观测延迟瓶颈、错误根因和 Token 成本。
2. Agent Metrics:超越 RED 框架的新维度
传统 RED 框架(Rate, Errors, Duration)不足以刻画 Agent 健康状态。AgentOps 需引入新指标:任务成功率、幻觉率、工具选择准确率、每任务 Token 消耗、推理轮次、权限越界次数、人类接管率等。这些 Metrics 的采集依赖于 Trace 层对每一次 LLM 调用和 Tool Call 的精细化拆解。
3. Agent Logs:结构化事件流与审计追踪
Agent 的运行日志不再是孤立的文本行,而是结构化的认知事件流。Prompt 和 Completion 内容存放于 Span Events 中,既避免索引大段文本的性能问题,又为审计和调试保留完整上下文。当 Agent 执行数据库回滚时,团队可以回溯"基于哪些告警指标做出决策"、"LLM 推理过程如何"、"是否有人类确认"——这是 AgentOps 合规与安全治理的基石。