传统可观测性的 Trace / Metrics / Logs 三支柱如何重构，才能覆盖 Agent 的感知-决策-行动闭环？

Agent 的感知-决策-行动闭环对可观测性提出了远超传统微服务的要求，三支柱必须全面升级以捕获 Agent 内部不可见的"认知过程"。

1. Agent Trace：从扁平调用链到层级推理树
传统 Trace 由 Service Span 组成，反映请求在服务间的跳转。而 Agent 的任务执行本质是推理与工具调用交替进行的层级树状结构。以 OpenTelemetry GenAI Semantic Conventions 为例，Trace 应包含 Agent Task Span → LLM Invocation Span → Retrieval Span → Tool Call Span → 第二轮 LLM Invocation Span 等层级，每一次调用都带有标准化语义标签。这让运维团队能端到端观测延迟瓶颈、错误根因和 Token 成本。

2. Agent Metrics：超越 RED 框架的新维度
传统 RED 框架（Rate, Errors, Duration）不足以刻画 Agent 健康状态。AgentOps 需引入新指标：任务成功率、幻觉率、工具选择准确率、每任务 Token 消耗、推理轮次、权限越界次数、人类接管率等。这些 Metrics 的采集依赖于 Trace 层对每一次 LLM 调用和 Tool Call 的精细化拆解。

3. Agent Logs：结构化事件流与审计追踪
Agent 的运行日志不再是孤立的文本行，而是结构化的认知事件流。Prompt 和 Completion 内容存放于 Span Events 中，既避免索引大段文本的性能问题，又为审计和调试保留完整上下文。当 Agent 执行数据库回滚时，团队可以回溯"基于哪些告警指标做出决策"、"LLM 推理过程如何"、"是否有人类确认"——这是 AgentOps 合规与安全治理的基石。