业界逐渐收敛出 L1/L2/L3 三层评估框架用于衡量生产环境 Agent 的健康度。L1 系统层关注 Agent 服务是否可用、延迟是否达标、资源是否充足,典型指标包括 P95 延迟、错误率、CPU/内存使用率和上下文窗口使用率。L2 模型层聚焦 LLM 调用本身的质量与成本,包括 Token 吞吐量、单次请求成本、幻觉检测评分和输出合规率,帮助企业识别模型输出漂移和费用异常。L3 业务层衡量 Agent 是否真正完成了用户目标,关注任务完成率、工具调用准确率、用户满意度和安全审计通过率。目前大多数团队仅做到 L1,甚至未覆盖模型层的 token 维度;真正的生产级 Agent 治理必须实现三层全栈可观测,否则无法定位是服务故障、模型质量问题还是业务逻辑偏差。
加载中...