GPU资源池总览
更新时间:2025-09-04
GPU资源池总览,包含节点使用情况、集群GPU卡分配情况、GPU卡使用情况、CPU&内存使用情况、GPU卡分配数、GPU卡分配率、GPU卡利用率、GPU卡显存利用率、节点信息、占用GPU的工作负载信息。
前提条件
- AI Job Scheduler版本 >= 1.7.9
- 已接入监控实例
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务
使用方法
- 登录百舸AI计算平台AIHC控制台。
- 在左侧导航栏自运维资源池中选择您想要查看监控大盘的资源池名称,并点击监控按钮。

- 跳转至资源观测页面,选择资源池总览。
资源池总览如图所示:

您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新。
资源池总览具体说明
节点使用情况
| 监控项 | 说明 |
|---|---|
| 总节点数 | 集群中所有节点 |
| 已分配节点数 | 可用GPU卡数为0的节点 |
| 空闲节点数 | GPU卡数大于0的节点,含污点节点 |
| 不可用节点数 | 封锁或not ready节点 |
集群卡分配情况
| 监控项 | 说明 |
|---|---|
| 总卡数 | 集群中所有节点上的GPU卡数 |
| 已分配卡数 | 已分配使用中的GPU卡数 |
| 空闲卡数 | GPU卡数大于0的节点,含污点节点空闲卡数 |
| 不可用卡数 | 集群中节点上的不可用卡数 |
卡使用情况
| 监控项 | 说明 |
|---|---|
| 卡平均利用率 | 当前集群内所有节点上GPU卡平均利用率实时值,卡平均利用率=sum(所有节点GPU卡利用率)/所有节点GPU卡数 |
| 卡显存平均利用率 | 当前集群内所有节点上GPU卡显存平均利用率实时值,显存平均利用率=sum(所有节点GPU卡显存利用率)/所有节点GPU卡数 |
CPU&内存
| 监控项 | 说明 |
|---|---|
| CPU核数 | 当前集群内CPU总核数 |
| CPU平均利用率 | 当前集群内所有CPU平均利用率实时值 |
| 内存总量 | 当前集群内存总量 |
| 内存平均利用率 | 当前集群内所有内存平均利用率实时值 |
利用率 & 分配率
| 监控项 | 说明 |
|---|---|
| 卡分配数 | 已分配GPU卡数 |
| 卡分配率 | 分配率=已分配GPU卡数/总GPU卡数 |
| 整体GPU平均利用率 | 当前集群内所有节点上GPU卡平均利用率实时值,平均利用率=sum(所有节点GPU卡利用率)/所有节点GPU卡数 |
| 运行中任务GPU平均利用率 | GPU平均利用率=sum(已分配GPU卡利用率)/已分配GPU卡数 |
| 整体GPU显存平均利用率 | 当前集群内所有节点上GPU卡显存平均利用率实时值,显存平均利用=sum(所有节点GPU卡显存利用率)/所有节点GPU卡数 |
| 运行中任务GPU显存平均利用率 | GPU显存平均利用率=sum(已分配GPU卡显存利用率)/已分配GPU卡数 |

节点信息
| 监控项 | 说明 |
|---|---|
| 节点名称 | 当前集群内的节点名称 |
| 节点状态 | 当前节点状态 |
| 已分配卡数 | 当前集群内节点上分配的GPU卡数 |
| GPU利用率 | 当前节点内所有GPU平均利用率实时值 |
| GPU显存平均利用率 | 当前节点内所有GPU显存平均利用率实时值 |
| 空闲卡数 | 当前集群内节点上空闲的GPU卡数 |
| CPU核数 | 当前节点内CPU总核数 |
| 内存总量 | 当前节点内寸总量 |

占用GPU的工作负载信息
| 监控项 | 说明 |
|---|---|
| 负载名称 | 当前集群占用GPU的工作负载名称 |
| 类型 | 当前集群占用GPU的工作负载类型 |
| 命名空间 | 当前集群占用GPU的工作负载所在命名空间 |
| 开始时间 | 当前集群占用GPU的工作负载开始时间 |
| 运行时长 | 当前集群占用GPU的工作负载运行时长 |
| GPU配给卡数 | 当前集群占用GPU的工作负载配给GPU卡数 |
| 显存平均利用率 | 当前集群占用GPU的工作负载内所有GPU卡显存平均利用率实时值 |
| GPU平均利用率 | 当前集群占用GPU的工作负载内GPU卡平均利用率实时值 |
| 内存使用量 | 当前集群占用GPU的工作负载的内存使用量 |
| CPU核数 | 当前集群占用GPU的工作负载的CPU核数 |

