AgentOps 是管理、部署、观测和治理 AI Agent 全生命周期的新兴学科。当 AI Agent 开始拥有自主调用工具、维护长期记忆和执行多步骤任务的能力时,传统的 MLOps 和 DevOps 都无法完整覆盖其运维需求,AgentOps 应运而生。
它的核心使命可以概括为三个"可":
- 可观测(Observable):深度追踪 Agent 的推理链(Chain-of-Thought)、工具调用序列和外部交互状态,而非仅仅监控容器 CPU 和内存。
- 可控制(Controllable):在 Agent 自主行动的同时,建立权限边界、审批流、回滚机制和人类接管通道,防止越权操作和失控。
- 可评估(Evaluable):量化 Agent 的决策质量、任务成功率和成本效率,形成持续改进的闭环,而非"黑盒运行"。
在 2026 年业界提出的 Agentic AI 技术栈七层模型中,第 7 层即为 Observability & Governance(可观测性与治理),被称为"operational backbone"(运营脊梁)。这一层直接决定 Agent 能否从实验室安全、可靠、规模化地走向生产环境。