阿里云围绕日志、指标、链路三大支柱构建了完整的可观测产品体系,并在 Agent 场景下进行了深度适配,主要包括以下产品:
可观测链路 OpenTelemetry 版:承担全链路追踪核心角色,支持基于 OpenTelemetry gen_ai 语义规范自动生成 Agent Trace,完整还原从用户请求到任务规划、模型推理、工具调用的全流程,并提供错慢链路自动定位和云产品一键追踪能力。
应用实时监控服务 ARMS:提供 LLM 应用专项监控,通过 Python 探针自动埋点,无侵入地采集 LLM 应用运行数据。ARMS 将操作类型精细分类为 CHAIN、EMBEDDING、RETRIEVER、RERANKER、LLM、TOOL、AGENT 和 TASK,并提供 LLM 应用概览、会话分析和调用链分析等多维度视图。
日志服务 SLS 与 LoongCollector:SLS 提供 PB 级日志的实时写入与秒级查询能力;LoongCollector 是统一可观测数据采集 Agent,支持 Logs、Metrics、Traces、Events、Profiles 的统一采集,以极低资源开销完成数据实时采集与转发,并支持采集一次、多处消费。
可观测监控 Prometheus 版与 Grafana 服务:Prometheus 版全托管接收模型调用延迟、Token 吞吐量、工具调用成功率等关键指标;Grafana 服务提供开箱即用的可视化能力,支持自定义 Dashboard 和多渠道告警联动。