面向智算平台的可观测Pipeline需要覆盖从底层硬件到上层应用的完整技术栈。在IaaS层,Pipeline采集物理机的CPU、内存、磁盘、网络等基础指标,以及GPU利用率、显存使用、温度、功耗等异构硬件指标,同时监控物理网络和RDMA通信质量。在CaaS层,Pipeline覆盖Kubernetes集群的调度事件、Pod生命周期、容器资源使用、Service Mesh流量等,特别关注GPU资源的调度效率和容器间的通信性能。在PaaS层,Pipeline采集AI训练框架(如PyTorch、TensorFlow)的训练指标、模型推理服务的延迟和吞吐、以及各类中间件的运行状态。LoongCollector通过统一的Agent在每个节点上同时采集这三层数据,并通过共享的标签体系实现跨层数据关联,使得故障发生时可以快速从应用异常下钻到基础设施根因。
加载中...