Agent 可观测性的三层评估模型是从基础设施到业务价值逐层递进的系统性评估框架,包含系统层、模型层和业务层三个维度。
**系统层(System Layer)**关注基础设施健康状态,评估指标包括容器或函数计算实例的资源利用率、LLM 推理服务的响应延迟与可用性、向量数据库的查询延迟和连接池状态、外部工具 API 的响应时间、消息队列或缓存中间件的吞吐量。阿里云云监控和可观测监控 Prometheus 版为系统层评估提供丰富数据源。
**模型层(Model Layer)**聚焦 LLM 调用本身的质量和效率,核心指标包括 Token 效率(平均每次请求消耗的输入/输出 Token 数)、延迟分布(首 Token 延迟和完整响应延迟)、错误模式(内容安全拦截、格式错误、空回复的频次)、调用频次(单次用户请求触发的 LLM 调用次数)。ARMS 的 LLM 应用概览面板为模型层提供开箱即用的数据视图,团队可基于历史数据建立基线并持续跟踪偏离情况。
**业务层(Business Layer)**是可观测性的最终落脚点,将技术指标与业务价值关联,包括任务成功率、会话轮次、用户满意度、业务转化率和成本效率。
三层之间并非孤立,阿里云可观测产品体系通过统一数据平台支持跨层关联分析,帮助团队从"系统是否正常"追溯到"模型是否高效"再到"业务是否达成"。