这是一个结构性问题,而非个别插件的缺陷。根本原因在于 Agent 的真实执行模式是 ReAct 迭代系统——每一轮都包含判断、工具选择、结果吸收和下一步规划,而非简单的「一次 LLM 调用加若干工具」。但市面上大多数可观测插件都基于 llm_input/llm_output hook 实现,这种 hook 机制在多轮对话中只触发一次,导致多轮决策被压缩为「单轮 LLM + 多个 TOOL」的扁平结构。用单个 LLM span 去概括整轮行为,天然会丢失中间语义。具体表现为:中间轮次的真实 LLM 输入输出不可见、Trace 结构与真实执行不一致产生误导、并发和连续调用下容易断链或串链。要解决这一问题,需要实现 LLM 分段导出,引入 STEP 等更细粒度的语义层级,才能完整还原 Agent 的多轮执行链路。
加载中...