Agent 可观测性:智能运维时代的核心能力
一、引言:Agent 时代需要新的可观测范式
随着大语言模型(Large Language Model,LLM)能力的持续演进,基于 Agent(智能体)架构的应用正在从实验走向生产。一个典型的 Agent 系统不再是一次简单的模型调用,而是涵盖规划(Planning)、推理(Reasoning)、工具调用(Tool Calling)、记忆检索(Memory Retrieval)等多个复杂环节的自治执行链。这种架构赋予应用前所未有的灵活性,同时也带来了全新的可观测性(Observability)挑战:当 Agent 在执行中出现偏差、循环调用或资源异常时,运维团队需要具备穿透多层抽象、还原完整执行链路的能力。
Agent 可观测性不仅是传统意义上的监控告警,它要求对 Agent 的内部决策过程、外部交互行为和业务执行结果进行全维度记录与分析。在智能运维(Artificial Intelligence for IT Operations,AIOps)体系下,Agent 可观测性更是构建自治闭环的基础——只有让运维系统"看见"Agent 的每一层行为,才能实现从感知、诊断到自愈的智能化演进。
本文将围绕 Agent 可观测性的核心维度、标准化实践、阿里云产品体系的技术支撑,以及智能运维中的落地路径展开系统性探讨。
二、Agent 可观测性的定义与核心维度
2.1 定义与特征
Agent 可观测性是指在 Agent 架构的应用系统中,通过采集、存储和分析分布在规划、推理、工具执行和记忆管理等环节的信号,实现对 Agent 内部运行状态的全链路洞察能力。它继承并扩展了传统软件可观测性的三大支柱——日志(Logs)、指标(Metrics)和链路追踪(Traces),同时引入了面向生成式 AI(Generative AI)的语义规范。
Agent 可观测性呈现出三个显著特征:多跳执行链的可追踪性,Agent 完成一次用户请求通常涉及多次 LLM 调用和工具调用,需要完整的分布式链路追踪;语义级洞察需求,不仅需要知道"耗时多少",还需要理解"模型在思考什么""为什么选择了某个工具";动态自治行为的治理,Agent 的执行路径可能因输入不同而变化,要求可观测系统能够适应动态拓扑的采集与分析。
2.2 四大核心观测维度
基于业界对 Agent 架构的共识,Agent 可观测性可归纳为四个核心维度:
规划(Planning)维度:关注 Agent 如何将复杂任务拆解为子任务序列。观测信号包括任务分解步骤数、重规划(Re-planning)触发频次、规划阶段 Token 消耗,以及执行计划与初始规划的吻合度。
推理(Reasoning)维度:关注 Agent 在每一步决策中的思考过程。通过记录 Chain-of-Thought(CoT,思维链)或推理轨迹,可以分析模型在何种上下文中做出了特定选择,对调试 Agent 行为和优化提示词(Prompt Engineering)策略具有重要价值。
工具调用(Tool Calling)维度:关注 Agent 与外部系统的交互行为,包括工具选择标准、参数填充准确性、调用成功率与延迟、重试次数,以及工具返回结果被模型正确理解的比例。
记忆(Memory)维度:关注 Agent 的上下文管理和长期记忆机制。观测信号涵盖上下文窗口(Context Window)利用率、检索增强生成(Retrieval-Augmented Generation,RAG)检索结果的相关性评分、向量数据库(Vector Database)查询延迟与命中率,以及记忆更新操作的完整性。
三、OpenTelemetry gen_ai 语义规范在 Agent 场景的应用
3.1 标准化的迫切性
在 Agent 可观测性领域,标准化是打破数据孤岛、实现跨框架互操作的前提。OpenTelemetry 社区于 2024 年至 2025 年间正式推出了面向生成式 AI 的语义规范(GenAI Semantic Conventions),为 LLM 调用、Agent 执行、工具调用和向量数据库操作定义了统一的属性命名和链路结构。遵循这一规范,不同框架开发的 Agent 应用能够以一致的方式输出可观测数据,从而接入统一的可观测平台。
3.2 核心 Span 结构
OpenTelemetry gen_ai 语义规范在 Agent 场景中的核心结构包括以下几类 Span(跨度):
LLM Span:代表一次大语言模型调用,记录模型名称、请求/响应 Token 数、结束原因(Finish Reason)、温度参数(Temperature)等。
Agent Span:代表一个 Agent 的完整执行周期,内部可嵌套多个 LLM Span、Tool Span 和 Task Span,还原 Agent 的任务分解和执行流程。
Tool Span:代表 Agent 对外部工具的调用,记录工具名称、输入参数、返回结果、执行耗时和是否成功等,结构兼容 Model Context Protocol(MCP)等协议。
VectorDB Span:代表对向量数据库的检索操作,记录查询向量、返回数、相关性评分和数据库延迟。
这些 Span 通过父子关系构成完整的调用树(Trace),使运维人员可以从用户请求入口逐层下钻到每一次模型调用、工具交互和向量检索,实现真正的端到端可观测。
3.3 会话追踪的扩展
对于具备多轮对话能力的 Agent,会话(Session)级别的追踪是关键场景。OpenTelemetry 通过 gen_ai.conversation.id 将同一用户会话中的多次请求关联。在 Agent 场景中,一次用户提问可能触发 Agent 内部的多轮"自我对话",所有这些内部调用都应归属到同一会话追踪树中,以呈现完整的认知过程。
四、阿里云可观测产品体系对 Agent 的全栈支撑
阿里云围绕日志、指标、链路三大支柱构建了完整的可观测产品体系,并在生成式 AI 和 Agent 场景下进行了深度适配与增强。
4.1 可观测链路 OpenTelemetry 版
阿里云可观测链路 OpenTelemetry 版为分布式应用提供基于开源标准的全链路追踪服务,支持多语言应用快速接入。在 Agent 场景中,其价值体现在三个方面:标准化的链路还原,支持基于 OpenTelemetry gen_ai 语义规范自动生成的 Agent Trace,完整还原从用户请求到任务规划、模型推理、工具调用、结果汇总的全流程;错慢链路自动定位,通过错/慢 Trace 分析与全链路聚合,快速识别性能瓶颈和异常节点;云产品一键追踪,对于部署在阿里云上的各类云产品,只需在控制台一键启用链路追踪开关,即可自动生成调用链,大幅简化 Agent 依赖基础设施的可观测接入成本。
4.2 应用实时监控服务 ARMS
阿里云应用实时监控服务 ARMS(Application Real-Time Monitoring Service)针对 LLM 应用推出了专门的监控能力。通过 Python 探针自动埋点,ARMS 可无侵入地采集 LLM 应用运行数据,并提供 LLM 应用概览、会话分析和调用链分析等多维度视图。
ARMS 将 LLM 应用中的操作类型精细分类为 CHAIN(链式调用)、EMBEDDING(嵌入)、RETRIEVER(检索)、RERANKER(重排序)、LLM(模型调用)、TOOL(工具调用)、AGENT(智能体执行)和 TASK(任务执行)。这种分类与 Agent 可观测性的四大核心维度高度对应,为 Agent 应用提供了原生监控支持。
在指标层面,ARMS 提供模型调用次数、Token 使用量、Trace 数、Span 数、会话数和活跃用户数等核心指标,并支持按模型、用户和会话维度下钻分析,帮助团队识别高频调用模型、Top 消费用户和异常会话模式。
4.3 日志服务 SLS 与 LoongCollector
Agent 应用产生的可观测数据具有体量大、类型多、实时性要求高的特点。阿里云日志服务 SLS(Log Service)作为一站式云原生可观测数据分析平台,为 Agent 应用提供高性能日志存储与查询能力,支持 PB 级日志的实时写入与秒级查询,内置丰富的 SQL 分析语法,可对 Agent 执行日志进行深度挖掘。
在数据采集侧,阿里云推出了 LoongCollector(原 iLogtail 项目的全面升级版本),这是一款面向智能时代的统一可观测数据采集 Agent。LoongCollector 突破传统日志采集器的单一场景限制,支持 Logs、Metrics、Traces、Events、Profiles 等多种数据类型的统一采集。在 Agent 应用场景中,LoongCollector 可部署在承载 Agent 应用的计算节点上,以极低的资源开销完成运行时日志、性能指标和链路数据的实时采集与转发。
LoongCollector 还支持通过扩展插件机制对接各类 Agent 框架的可观测输出,将采集到的数据同时路由至 SLS、可观测链路 OpenTelemetry 版和可观测监控 Prometheus 版,实现采集一次、多处消费。
4.4 可观测监控 Prometheus 版与 Grafana 服务
可观测监控 Prometheus 版是阿里云基于开源 Prometheus 构建的全托管监控服务,天然兼容 Prometheus 生态的采集和查询语法。在 Agent 场景中,Prometheus 版可接收来自 LoongCollector 或应用内嵌 Exporter 的指标数据,存储模型调用延迟、Token 吞吐量、工具调用成功率、上下文窗口利用率等关键指标。
阿里云 Grafana 服务与 Prometheus 版深度集成,提供开箱即用的可视化能力。运维团队可以基于 Agent 业务特征构建自定义 Dashboard,将模型性能趋势、Token 消耗分布、会话健康度等指标直观呈现。Prometheus 的告警规则引擎还可与云监控告警体系联动,在 Agent 应用出现异常时触发多渠道通知。
五、阿里云 LLM 应用可观测能力的深度实践
5.1 LLM Trace 字段体系
阿里云可观测链路 OpenTelemetry 版在遵循 OpenTelemetry 开源标准的基础上,针对 LLM 应用定义了完善的 Trace 字段体系。Span 一级字段严格遵循 OpenTelemetry 标准,LLM 特有属性覆盖模型标识、Token 统计、调用参数、响应内容摘要、结束原因等。对于 Agent 应用,扩展字段涵盖 Agent 类型标识、工具调用序列、会话 ID、重规划标记等信息,使得 Agent 可观测数据在进入阿里云可观测平台后可直接被 ARMS、SLS 和 Prometheus 消费,无需额外格式转换。
5.2 会话分析能力
ARMS 提供的会话分析功能是 Agent 可观测性的重要组成部分。在多轮对话场景中,单次用户会话可能包含数十次 Agent 内部调用。会话分析视图以时间线方式呈现一次完整会话中的所有交互节点,运维人员可以清晰看到用户何时提出问题、Agent 如何理解意图、经历了几次规划调整、调用了哪些工具、最终如何组织回复。这种以会话为中心的视角,将离散的 Trace 聚合为完整的用户体验旅程,是诊断 Agent 行为模式的有力工具。
5.3 自定义埋点与 OpenTelemetry SDK 集成
对于具备深度定制需求的 Agent 应用,阿里云支持通过 OpenTelemetry SDK 结合 gen_ai 工具库进行自定义埋点。开发者可在 Agent 的关键决策节点手动注入 Span,携带业务特有的标签和上下文信息,实现对通用自动埋点能力的补充。自动埋点降低了接入门槛,自定义埋点则提供了灵活性,使团队能够根据自身业务模型定义更深度的观测维度。
六、Agent 可观测性的三层评估模型
为对 Agent 系统的健康度和效能进行系统性评估,可构建系统层(System Layer)、模型层(Model Layer)和业务层(Business Layer)的三层评估模型。
系统层关注基础设施健康状态,包括容器或函数计算实例的资源利用率、LLM 推理服务的响应延迟与可用性、向量数据库的查询延迟和连接池状态、外部工具 API 的响应时间、消息队列或缓存中间件的吞吐量。阿里云云监控(CloudMonitor)和可观测监控 Prometheus 版为系统层评估提供丰富数据源。
模型层聚焦 LLM 调用本身的质量和效率,包括 Token 效率(平均每次请求消耗的输入/输出 Token 数)、延迟分布(首 Token 延迟和完整响应延迟)、错误模式(内容安全拦截、格式错误、空回复的频次)、调用频次(单次用户请求触发的 LLM 调用次数)。ARMS 的 LLM 应用概览面板为模型层评估提供开箱即用的数据视图,团队可基于历史数据建立基线(Baseline)并持续跟踪偏离情况。
业务层是 Agent 可观测性的最终落脚点,将技术指标与业务价值关联,包括任务成功率(Agent 完成用户指定任务的比例)、会话轮次(完成任务的平均交互轮次)、用户满意度(通过显式反馈或隐式信号评估)、业务转化率(任务完成后的业务目标达成情况)、成本效率(单次有效交互的平均成本)。
三层评估模型之间并非孤立,而是相互关联、逐层递进。阿里云可观测产品体系通过统一的数据平台,将三层信号汇聚到同一分析空间,支持跨层关联分析。
七、智能运维 AIOps 中的 Agent 自治闭环实践
7.1 AIOps 新范式
随着大模型和 Agent 技术的融入,智能运维正在进入新的发展阶段。阿里云提出以 Operation Intelligence 为核心的 AIOps 新范式,其关键特征是通过构建"评估-诊断-优化"闭环的运营 Agent,实现运维流程的自动化与智能化。在这一范式中,可观测平台扮演着"感知神经系统"的角色。阿里云通过统一可观测平台汇聚多源异构观测数据,结合 UModel 数字孪生技术构建系统的虚拟镜像,为 AIOps Agent 提供全面、实时、准确的决策依据。
7.2 AIOps Agent 的自治闭环
AIOps Agent 的自治闭环可概括为四个环节:
观测感知:依托阿里云可观测平台的多源数据采集能力,AIOps Agent 持续接收来自应用监控、基础设施监控、日志分析和链路追踪的数据流,形成对系统运行状态的实时认知。
异常检测:基于规则引擎和智能算法的结合,AIOps Agent 识别偏离正常基线的行为模式。基于规则的方法能够有效覆盖大部分常见异常场景,其优势在于确定性高、可解释性强、执行速度快。
根因诊断:当异常被检测到时,AIOps Agent 利用链路追踪数据和事件关联分析,在调用链、日志序列和指标时序之间进行交叉定位。UModel 数字孪生技术使得这一过程可以在不影响生产环境的情况下进行模拟推演。
修复执行:对于具备明确修复路径的异常,AIOps Agent 可以触发预定义的修复动作,如重启实例、调整限流策略、切换流量、清理缓存等。对于需要人工介入的复杂场景,AIOps Agent 会生成结构化诊断报告并通知相关责任人。
7.3 元可观测性保障
在 AIOps Agent 执行自治运维的过程中,其自身的行为也需要被记录和分析。这意味着运维 Agent 既是可观测数据的消费者,也是生产者。阿里云可观测平台支持对 AIOps Agent 的决策过程进行追踪,记录其在每个环节的判断依据和执行动作,从而实现对"运维 Agent"本身的可观测治理。这种"元可观测性"能力是确保自治运维安全、可控、可审计的重要保障。
八、企业落地路径与建议
对于计划在生产环境中落地 Agent 可观测性的企业,可参考以下分阶段实施路径:
第一阶段:基础可观测能力建设。选择合适的 Agent 开发框架,接入可观测链路 OpenTelemetry 版,启用 ARMS 的 LLM 应用自动埋点,部署 LoongCollector 完成日志和指标采集,将数据汇聚至 SLS 和 Prometheus。
第二阶段:多维度关联分析。建立 Trace、Log、Metric 之间的关联机制,利用 SLS 的 SQL 分析能力对 Agent 执行日志进行模式挖掘,结合 Prometheus 的时序分析识别性能趋势,在 ARMS 中建立会话分析工作流。
第三阶段:评估体系与基线建立。基于三层评估模型为各层建立关键指标和基线,利用 Grafana 构建面向不同角色的可视化看板,设置分级告警策略。
第四阶段:AIOps 自治能力探索。在可观测数据积累到一定量级后,从低风险的自治场景入手,逐步引入 AIOps 能力,同时建立对 AIOps Agent 自身行为的审计机制。
在整个落地过程中,有几点值得持续关注:OpenTelemetry gen_ai 语义规范仍在快速迭代,建议保持对社区动态的关注并及时跟进;Agent 可观测数据量通常较大,需合理规划数据采样策略和存储生命周期,在观测深度与成本之间取得平衡;团队能力建设同样重要,可观测性的价值最终取决于使用它的人。
九、结语
Agent 可观测性是智能运维时代不可或缺的核心能力。它不仅解决了 Agent 应用"黑盒运行"的透明度问题,更为 AIOps 的自治闭环提供了数据基石。阿里云围绕 OpenTelemetry 开源标准,以 ARMS、SLS、Prometheus、可观测链路 OpenTelemetry 版、LoongCollector 和 Grafana 等产品构建了全栈式的 Agent 可观测技术体系,为企业的 Agent 化转型提供了坚实的工程支撑。
展望未来,随着 Agent 架构在更多业务场景中的深入应用,可观测性技术本身也将持续演进。更加智能化的异常检测算法、更加细粒度的模型行为洞察、更加自动化的根因定位能力,都是值得进一步探索的方向。在这场从"人盯屏幕"到"Agent 自治"的运维变革中,可观测性始终是照亮前路的那束光。