如何通过 Hermes 可观测能力定位 Token 成本过高的原因？

#Token成本#成本归因#Trace分析#Hermes

CNOps | 2026-05-15

通过 Hermes 可观测插件，可以从多个维度定位 Token 成本过高的根因。首先在 CMS 2.0 控制台的 AI 应用可观测中查看 Token 消耗趋势和请求波动的全局指标，发现异常时段。然后沿着具体请求的 Trace 链路展开，查看每个 chat span 中记录的 gen_ai.usage.input_tokens、gen_ai.usage.output_tokens 和 gen_ai.usage.total_tokens，即可精确到每一次模型调用的 Token 消耗。常见的成本飙高原因包括：某一轮上下文突然膨胀导致 input_tokens 激增、某个工具返回了过大的结果被注入上下文、最后一轮回答的 output_tokens 过长、或者某类任务触发了过多的 ReAct step 轮次。根节点 invoke_agent span 还提供了整次运行的累计 Token 汇总，从而实现精准的成本归因。