AgentOps 要求在传统的 Metrics、Logs、Traces 三大支柱基础上,扩展对 LLM 特有行为的观测能力。Metrics 层需要对 Agent 核心运行指标进行精细化采集,包括推理延迟、Token 消耗速率、工具调用成功率、任务完成率、幻觉率等。阿里云 Prometheus 服务支持将这些指标以标准化格式接入监控体系,结合 Grafana 进行多维可视化分析。Logs 层涉及多源异构日志融合,包括应用日志、系统日志、LLM 交互日志和工具执行日志。阿里云 SLS 日志服务通过 LoongCollector 实现多源日志的高效采集,SPL 分析引擎支持对 Agent 日志进行实时查询和模式挖掘,并能对 Prompt 和 Response 进行结构化解析。Traces 层需要将传统分布式追踪扩展到 Agent 场景,对 LLM 推理、知识库检索、API 请求等记录为 Trace 中的 Span,形成完整的调用依赖图谱。阿里云可观测链路追踪基于 OpenTelemetry 标准,实现从业务请求到 Agent 执行的全链路串联。
加载中...