Agent 可观测性的三层评估模型（L1/L2/L3）分别关注哪些指标？

Question

Accepted Answer

业界逐渐收敛出 L1/L2/L3 三层评估框架用于衡量生产环境 Agent 的健康度。**L1 系统层**关注 Agent 服务是否可用、延迟是否达标、资源是否充足，典型指标包括 P95 延迟、错误率、CPU/内存使用率和上下文窗口使用率。**L2 模型层**聚焦 LLM 调用本身的质量与成本，包括 Token 吞吐量