GPU工作负载资源
所有文档
menu

百舸异构计算平台 AIHC

GPU工作负载资源

GPU工作负载资源,包含任务属性、GPU卡数、GPU资源使用情况、GPU节点使用概要。

前提条件

使用方法

  1. 登录百舸异构计算平台AIHC控制台
  2. 在左侧导航栏资源池中选择您想要查看监控大盘的资源池名称,并点击右侧操作中的资源观测

image.png

  1. 跳转至资源观测页面,选择GPU工作负载资源

GPU工作负载资源如图所示:

image.png

您可以点击右上角按钮,自行设定监控时间手动刷新自动刷新

GPU工作负载资源具体说明

任务属性

监控项 说明
负载名称 当前工作负载的名称
类型 当前工作负载的类型
命名空间 当前工作负载所在命名空间
开始时间 当前工作负载的开始时间
运行时长 当前工作负载的运行时长

image.png

卡数&GPU资源使用情况

监控项 说明
卡数 当前工作负载的GPU卡数
GPU利用率 当前工作负载所有GPU的平均利用率实时值
显存利用率 当前工作负载所有显存的平均利用率实时值
显存使用量 当前工作负载所有显存的使用量实时值

image.png

GPU节点使用概要

监控项 说明
命名空间 当前工作负载中GPU节点所在命名空间
节点IP 当前工作负载中GPU节点IP
Pod名称 当前工作负载中GPU节点中运行Pod名称
GPU配给卡数 当前工作负载中GPU节点的GPU配给卡数
GPU平均利用率 当前工作负载中GPU节点的GPU平均利用率
显存使用量 当前工作负载中GPU节点的显存使用量
显存平均利用率 当前工作负载中GPU节点的显存平均利用率

image.png

上一篇
GPU节点资源
下一篇
AI Job Scheduler组件