企业在生产环境中落地 Agent 可观测性,建议遵循分阶段实施的渐进式路径,从基础能力建设逐步过渡到智能化自治:
第一阶段:基础可观测能力建设。选择合适的 Agent 开发框架,接入可观测链路 OpenTelemetry 版,启用 ARMS 的 LLM 应用自动埋点,部署 LoongCollector 完成日志和指标采集,将数据汇聚至 SLS 和 Prometheus。这一阶段的核心目标是让 Agent 应用"可看见"。
第二阶段:多维度关联分析。建立 Trace、Log、Metric 之间的关联机制,利用 SLS 的 SQL 分析能力对 Agent 执行日志进行模式挖掘,结合 Prometheus 的时序分析识别性能趋势,在 ARMS 中建立会话分析工作流。这一阶段从"看见"走向"看懂"。
第三阶段:评估体系与基线建立。基于系统层、模型层、业务层的三层评估模型为各层建立关键指标和基线,利用 Grafana 构建面向不同角色(开发、运维、业务)的可视化看板,设置分级告警策略。这一阶段实现了"可度量"。
第四阶段:AIOps 自治能力探索。在可观测数据积累到一定量级后,从低风险的自治场景(如自动扩缩容、缓存清理)入手,逐步引入 AIOps 能力,同时建立对 AIOps Agent 自身行为的审计机制。这一阶段走向"可自治"。
在整个落地过程中,需要持续关注 OpenTelemetry gen_ai 规范的迭代更新、合理规划数据采样策略与存储生命周期以平衡观测深度与成本,并重视团队的可观测能力建设。