可观测Pipeline如何覆盖智算平台的IaaS、CaaS和PaaS全栈？

#全栈可观测#IaaS#CaaS#PaaS#智算平台

可观测中文社区 | 2025-03-18

面向智算平台的可观测Pipeline需要覆盖从底层硬件到上层应用的完整技术栈。在IaaS层，Pipeline采集物理机的CPU、内存、磁盘、网络等基础指标，以及GPU利用率、显存使用、温度、功耗等异构硬件指标，同时监控物理网络和RDMA通信质量。在CaaS层，Pipeline覆盖Kubernetes集群的调度事件、Pod生命周期、容器资源使用、Service Mesh流量等，特别关注GPU资源的调度效率和容器间的通信性能。在PaaS层，Pipeline采集AI训练框架（如PyTorch、TensorFlow）的训练指标、模型推理服务的延迟和吞吐、以及各类中间件的运行状态。LoongCollector通过统一的Agent在每个节点上同时采集这三层数据，并通过共享的标签体系实现跨层数据关联，使得故障发生时可以快速从应用异常下钻到基础设施根因。