超算任务通常以进程形式运行在主机上,仅有主机整体资源监控是不够的,需要对具体计算任务的资源消耗进行精细化观测。进程级监控的价值体现在以下几个方面:
- 横向对比:通过进程间的资源消耗对比,可以快速发现资源消耗异常的进程,定位性能瓶颈。
- 故障诊断:帮助识别导致系统性能下降的进程,如内存泄露、高 CPU 使用率或资源争用等问题。
- 资源优化:提供接近实时的监控能力,指导资源调度决策。
进程级监控采集的关键指标包括:进程的 CPU 使用率、进程的内存使用量、进程的磁盘读写情况、进程的启动时间、打开的文件句柄数、进程下调起的线程数量,以及进程数量和协程数量等。阿里云 Prometheus 通过 Process-exporter 自动采集这些指标,并提供 Node Process 进程大盘进行可视化展示。