训练任务资源监控
百舸平台针对于训练任务的资源使用,提供了全面的监控指标,帮助您更好地掌握资源负载情况。下面将介绍如何查询训练任务的监控。
前提条件
- 资源池已经接入百度云Prometheus监控服务。请参考资源池接入Prometheus监控实例。
- 已经创建训练任务,详情可参考创建任务。
查询入口
- 登录百舸控制台。
- 左侧菜单栏单击 训练任务,进入训练任务列表页面
- 选择需要查询的训练任务,单击监控,即可查询该任务的监控大盘
监控指标及说明
当前任务资源监控主要支持:任务维度、实例维度、GPU卡维度、RDMA网卡维度以及节点维度的监控
任务维度
面板组 |
指标 |
描述 |
GPU |
GPU算力使用率(任务维度) |
指定任务的GPU算力使用率 |
GPU显存使用率(任务维度) |
指定任务的GPU显存使用率 |
GPU SM设备使用率(任务维度) |
指定任务的GPU设备SM处于Active的比例 |
PCIE发送数据速率(任务维度) |
指定任务的GPU设备 PCIE 上的发送数据速率 |
PCIE接收数据速率(任务维度) |
指定任务的GPU设备 PCIE 上的接收数据速率 |
NVLink发送数据速率(任务维度) |
指定任务的GPU设备 NVLink 上的发送数据速率 |
NVLink接收数据速率(任务维度) |
指定任务的GPU设备 NVLink 上的接收数据速率 |
GPU功耗(任务维度) |
指定任务的GPU设备功耗 |
GPU温度(任务维度) |
指定任务的GPU设备温度 |
GPU Tensor pipe使用率(任务维度) |
指定任务的GPU设备Tensor pipe处于Active的周期分数 |
网络 |
RDMA网卡健康状态(任务维度) |
指定任务的RDMA网卡状态(100%为健康,低于100%为部分异常) |
RDMA网卡发送端丢包速率(任务维度) |
指定任务的RDMA网卡发送端丢包速率 |
RDMA网卡接收端丢包速率(任务维度) |
指定任务的RDMA网卡接收端丢包速率 |
RDMA网卡接收数据速率(任务维度) |
指定任务的RDMA网卡的接收数据速率 |
RDMA网卡发送数据速率(任务维度) |
指定任务的RDMA网卡的发送数据速率 |
RDMA网卡发送包速率(任务维度) |
指定任务的RDMA网卡的发送包速率 |
RDMA网卡接收包速率(任务维度) |
指定任务的RDMA网卡的接收包速率 |
CPU/内存 |
CPU使用率(任务维度) |
指定任务的CPU使用率(占节点) |
内存使用率(任务维度) |
指定任务的内存使用率(占节点) |
存储 |
磁盘设备读/写速率(任务维度) |
指定任务的磁盘读/写数据的速率 |
磁盘设备读/写IO速率(任务维度) |
指定任务的磁盘读/写数据的IOPS |
实例维度
面板组 |
指标 |
描述 |
GPU |
GPU算力使用率(Pod维度) |
指定Pod的GPU算力使用率 |
GPU显存使用率(Pod维度) |
指定Pod的GPU显存使用率 |
GPU SM设备使用率(Pod维度) |
指定Pod的GPU设备SM处于Active的比例 |
PCIE发送数据速率(Pod维度) |
指定Pod的GPU设备 PCIE 上的发送数据速率 |
PCIE接收数据速率(Pod维度) |
指定Pod的GPU设备 PCIE 上的接收数据速率 |
NVLink发送数据速率(Pod维度) |
指定Pod的GPU设备 NVLink 上的发送数据速率 |
NVLink接收数据速率(Pod维度) |
指定Pod的GPU设备 NVLink 上的接收数据速率 |
GPU功耗(Pod维度) |
指定Pod的GPU设备功耗 |
GPU温度(Pod维度) |
指定Pod的GPU设备温度 |
GPU Tensor pipe使用率(Pod维度) |
指定Pod的GPU设备Tensor pipe处于Active状态的周期分数 |
网络 |
RDMA网卡健康状态(Pod维度) |
指定Pod的RDMA网卡状态(100%为健康,低于100%为部分异常) |
RDMA网卡发送端丢包速率(Pod维度) |
指定Pod的RDMA网卡发送端丢包速率 |
RDMA网卡接收端丢包速率(Pod维度) |
指定Pod的RDMA网卡接收端丢包速率 |
RDMA网卡接收数据速率(Pod维度) |
指定Pod的RDMA网卡的接收数据速率 |
RDMA网卡发送数据速率(Pod维度) |
指定Pod的RDMA网卡的发送数据速率 |
RDMA网卡发送包速率(Pod维度) |
指定Pod的RDMA网卡的发送包速率 |
RDMA网卡接收包速率(Pod维度) |
指定Pod的RDMA网卡的接收包速率 |
CPU/内存 |
CPU使用率(Pod维度) |
指定Pod的CPU使用率(占节点) |
CPU使用量(Pod维度) |
指定Pod的CPU使用量 |
内存使用率(Pod维度) |
指定Pod的内存使用率(占节点) |
内存使用量(Pod维度) |
指定Pod的内存使用量 |
存储 |
磁盘设备读/写速率(Pod维度) |
指定Pod的磁盘读/写数据的速率 |
磁盘设备读/写IO速率(Pod维度) |
指定Pod的磁盘读/写数据的IOPS |
GPU卡维度
指标 |
描述 |
GPU算力使用率(卡维度) |
GPU设备算力使用率 |
GPU显存使用率(卡维度) |
GPU设备显存使用率 |
GPU显存使用量(卡维度) |
GPU设备显存使用量 |
GPU SM设备使用率(卡维度) |
GPU设备SM处于Active的比例 |
PCIE发送数据速率(卡维度) |
GPU设备 PCIE 上的发送数据速率 |
PCIE接收数据速率(卡维度) |
GPU设备 PCIE 上的接收数据速率 |
NVLink发送数据速率(卡维度) |
GPU设备 NVLink 上的发送数据速率 |
NVLink接收数据速率(卡维度) |
GPU设备 NVLink 上的接收数据速率 |
GPU功耗(卡维度) |
GPU设备功耗 |
GPU温度(卡维度) |
GPU设备温度 |
GPU Tensor pipe使用率(卡维度) |
GPU设备Tensor pipe平均处于Active状态的周期分数 |
RDMA网卡维度
指标 |
描述 |
RDMA网卡健康状态(网卡维度) |
RDMA网卡状态(1为健康,0为异常) |
RDMA网卡发送端丢包速率(网卡维度) |
RDMA网卡发送端丢包速率 |
RDMA网卡接收端丢包速率(网卡维度) |
RDMA网卡接收端丢包速率 |
RDMA网卡接收数据速率(网卡维度) |
RDMA网卡的接收数据速率 |
RDMA网卡发送数据速率(网卡维度) |
RDMA网卡的发送数据速率 |
RDMA网卡发送包速率(网卡维度) |
RDMA网卡的发送包速率 |
RDMA网卡接收包速率(网卡维度) |
RDMA网卡的接收包速率 |
节点维度
面板组 |
指标 |
描述 |
Overview |
节点状态 |
节点的健康状态,1表示健康,0表示异常 |
GPU |
GPU算力使用率(节点维度) |
指定节点的GPU设备算力使用率 |
GPU显存使用率(节点维度) |
指定节点的GPU设备显存使用率 |
GPU SM设备使用率(节点维度) |
指定节点的GPU设备SM处于Active的比例 |
CPU/内存 |
CPU使用率(节点维度) |
指定节点的CPU使用率 |
CPU使用量(节点维度) |
指定节点的CPU使用量 |
内存使用率(节点维度) |
指定节点的内存使用率 |
内存使用量(节点维度) |
指定节点的内存使用量 |
磁盘 |
磁盘分区存储空间总容量/已使用容量/使用率 |
指定节点磁盘分区存储空间总容量/已使用容量/使用率 |
磁盘分区inode总数量/已使用量/使用率 |
指定节点磁盘分区inode总数量/已使用量/使用率 |
磁盘设备读速率(节点维度) |
指定节点上磁盘设备读速率 |
磁盘设备写速率(节点维度) |
指定节点上磁盘设备写速率 |
磁盘设备IO利用率(节点维度) |
指定节点上磁盘设备IO利用率 |
磁盘设备读IO速率(节点维度) |
指定节点上磁盘设备读IO速率 |
磁盘设备写IO速率(节点维度) |
指定节点上磁盘设备写IO速率 |