一个完整的企业级 Agent 可观测性技术栈可分为五个层次。采集层利用 OpenTelemetry 自动埋点(如 opentelemetry-instrumentation-openai)捕获 LLM 调用,同时对工具调用、记忆读写等 Agent 特有操作手动创建自定义 Span。传输层通过 OpenTelemetry Collector 实现采样策略(开发环境 100%、生产成功请求 5%-10%、错误请求 100%)和数据脱敏。平台层可选用 LangSmith、Datadog LLM Observability 或 OpenObserve,提供 Token 趋势、工具成功率、会话追踪和质量评分等开箱即用的仪表盘。分析层关注任务完成率、幻觉检测、成本归因和安全评分。治理层实现 Agent Identity、权限审计、合规报告和成本分摊。落地建议包括:今天就在第一行代码中引入 gen_ai 语义规范;同步建设 L1/L2/L3 三层指标体系;在 Agent 架构设计阶段将可观测性作为硬性门槛;为未来的 AIOps Agent 预留标准数据接口。
加载中...