企业落地 Agent 可观测性应该遵循什么样的实施路径？

Q: 企业落地 Agent 可观测性应该遵循什么样的实施路径？

企业在生产环境中落地 Agent 可观测性，建议遵循分阶段实施的渐进式路径，从基础能力建设逐步过渡到智能化自治： **第一阶段：基础可观测能力建设**。选择合适的 Agent 开发框架，接入可观测链路 OpenTelemetry 版，启用 ARMS 的 LLM 应用自动埋点，部署 LoongCollector 完成日

企业在生产环境中落地 Agent 可观测性，建议遵循分阶段实施的渐进式路径，从基础能力建设逐步过渡到智能化自治：

第一阶段：基础可观测能力建设。选择合适的 Agent 开发框架，接入可观测链路 OpenTelemetry 版，启用 ARMS 的 LLM 应用自动埋点，部署 LoongCollector 完成日志和指标采集，将数据汇聚至 SLS 和 Prometheus。这一阶段的核心目标是让 Agent 应用"可看见"。

第二阶段：多维度关联分析。建立 Trace、Log、Metric 之间的关联机制，利用 SLS 的 SQL 分析能力对 Agent 执行日志进行模式挖掘，结合 Prometheus 的时序分析识别性能趋势，在 ARMS 中建立会话分析工作流。这一阶段从"看见"走向"看懂"。

第三阶段：评估体系与基线建立。基于系统层、模型层、业务层的三层评估模型为各层建立关键指标和基线，利用 Grafana 构建面向不同角色（开发、运维、业务）的可视化看板，设置分级告警策略。这一阶段实现了"可度量"。

第四阶段：AIOps 自治能力探索。在可观测数据积累到一定量级后，从低风险的自治场景（如自动扩缩容、缓存清理）入手，逐步引入 AIOps 能力，同时建立对 AIOps Agent 自身行为的审计机制。这一阶段走向"可自治"。

在整个落地过程中，需要持续关注 OpenTelemetry gen_ai 规范的迭代更新、合理规划数据采样策略与存储生命周期以平衡观测深度与成本，并重视团队的可观测能力建设。