GPU工作负载资源
更新时间:2025-09-04
工作负载资源,包含任务属性、GPU卡数、GPU资源使用情况、GPU节点使用概要。
前提条件
- AI Job Scheduler版本 >= 1.7.9
- 已接入监控实例
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务
使用方法
- 登录百舸AI计算平台AIHC控制台。
- 在左侧导航栏自运维资源池中选择您想要查看监控大盘的资源池名称,并点击监控按钮。

- 跳转至资源观测页面,选择工作负载资源。
工作负载资源如图所示:

您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新。
工作负载资源具体说明
任务属性
| 监控项 | 说明 | 
|---|---|
| 负载名称 | 当前工作负载的名称 | 
| 类型 | 当前工作负载的类型 | 
| 命名空间 | 当前工作负载所在命名空间 | 
| 开始时间 | 当前工作负载的开始时间 | 
| 运行时长 | 当前工作负载的运行时长 | 

卡数&GPU资源使用情况
| 监控项 | 说明 | 
|---|---|
| 卡数 | 当前工作负载的GPU卡数 | 
| GPU利用率 | 当前工作负载所有GPU的平均利用率实时值 | 
| 显存利用率 | 当前工作负载所有显存的平均利用率实时值 | 
| 显存使用量 | 当前工作负载所有显存的使用量实时值 | 

GPU节点使用概要
| 监控项 | 说明 | 
|---|---|
| 命名空间 | 当前工作负载中GPU节点所在命名空间 | 
| 节点IP | 当前工作负载中GPU节点IP | 
| Pod名称 | 当前工作负载中GPU节点中运行Pod名称 | 
| GPU配给卡数 | 当前工作负载中GPU节点的GPU配给卡数 | 
| GPU平均利用率 | 当前工作负载中GPU节点的GPU平均利用率 | 
| 显存使用量 | 当前工作负载中GPU节点的显存使用量 | 
| 显存平均利用率 | 当前工作负载中GPU节点的显存平均利用率 | 

