通过 Hermes 可观测插件,可以从多个维度定位 Token 成本过高的根因。首先在 CMS 2.0 控制台的 AI 应用可观测中查看 Token 消耗趋势和请求波动的全局指标,发现异常时段。然后沿着具体请求的 Trace 链路展开,查看每个 chat span 中记录的 gen_ai.usage.input_tokens、gen_ai.usage.output_tokens 和 gen_ai.usage.total_tokens,即可精确到每一次模型调用的 Token 消耗。常见的成本飙高原因包括:某一轮上下文突然膨胀导致 input_tokens 激增、某个工具返回了过大的结果被注入上下文、最后一轮回答的 output_tokens 过长、或者某类任务触发了过多的 ReAct step 轮次。根节点 invoke_agent span 还提供了整次运行的累计 Token 汇总,从而实现精准的成本归因。
加载中...