GPU资源池总览
所有文档
menu

百舸异构计算平台 AIHC

GPU资源池总览

GPU资源池总览,包含节点使用情况、集群GPU卡分配情况、GPU卡使用情况、CPU&内存使用情况、GPU卡分配数、GPU卡分配率、GPU卡利用率、GPU卡显存利用率、节点信息、占用GPU的工作负载信息。

前提条件

使用方法

  1. 登录百舸异构计算平台AIHC控制台
  2. 在左侧导航栏资源池中选择您想要查看监控大盘的资源池名称,并点击右侧操作中的资源观测

image.png

  1. 跳转至资源观测页面,选择GPU资源池总览

GPU资源池总览如图所示:

image.png

您可以点击右上角按钮,自行设定监控时间手动刷新自动刷新

GPU资源池总览具体说明

节点使用情况

监控项 说明
总节点数 集群中所有节点
已分配节点数 可用GPU卡数为0的节点
空闲节点数 GPU卡数大于0的节点,含污点节点
不可用节点数 封锁或not ready节点

集群卡分配情况

监控项 说明
总卡数 集群中所有节点上的GPU卡数
已分配卡数 已分配使用中的GPU卡数
空闲卡数 GPU卡数大于0的节点,含污点节点空闲卡数
不可用卡数 集群中节点上的不可用卡数

卡使用情况

监控项 说明
卡平均利用率 当前集群内所有节点上GPU卡平均利用率实时值,卡平均利用率=sum(所有节点GPU卡利用率)/所有节点GPU卡数
卡显存平均利用率 当前集群内所有节点上GPU卡显存平均利用率实时值,显存平均利用率=sum(所有节点GPU卡显存利用率)/所有节点GPU卡数

CPU&内存

监控项 说明
CPU核数 当前集群内CPU总核数
CPU平均利用率 当前集群内所有CPU平均利用率实时值
内存总量 当前集群内存总量
内存平均利用率 当前集群内所有内存平均利用率实时值

利用率 & 分配率

监控项 说明
卡分配数 已分配GPU卡数
卡分配率 分配率=已分配GPU卡数/总GPU卡数
整体GPU平均利用率 当前集群内所有节点上GPU卡平均利用率实时值,平均利用率=sum(所有节点GPU卡利用率)/所有节点GPU卡数
运行中任务GPU平均利用率 GPU平均利用率=sum(已分配GPU卡利用率)/已分配GPU卡数
整体GPU显存平均利用率 当前集群内所有节点上GPU卡显存平均利用率实时值,显存平均利用=sum(所有节点GPU卡显存利用率)/所有节点GPU卡数
运行中任务GPU显存平均利用率 GPU显存平均利用率=sum(已分配GPU卡显存利用率)/已分配GPU卡数

image.png

节点信息

监控项 说明
节点名称 当前集群内的节点名称
节点状态 当前节点状态
已分配卡数 当前集群内节点上分配的GPU卡数
GPU利用率 当前节点内所有GPU平均利用率实时值
GPU显存平均利用率 当前节点内所有GPU显存平均利用率实时值
空闲卡数 当前集群内节点上空闲的GPU卡数
CPU核数 当前节点内CPU总核数
内存总量 当前节点内寸总量

截屏2024-07-15 下午3.45.40.png

占用GPU的工作负载信息

监控项 说明
负载名称 当前集群占用GPU的工作负载名称
类型 当前集群占用GPU的工作负载类型
命名空间 当前集群占用GPU的工作负载所在命名空间
开始时间 当前集群占用GPU的工作负载开始时间
运行时长 当前集群占用GPU的工作负载运行时长
GPU配给卡数 当前集群占用GPU的工作负载配给GPU卡数
显存平均利用率 当前集群占用GPU的工作负载内所有GPU卡显存平均利用率实时值
GPU平均利用率 当前集群占用GPU的工作负载内GPU卡平均利用率实时值
内存使用量 当前集群占用GPU的工作负载的内存使用量
CPU核数 当前集群占用GPU的工作负载的CPU核数

image.png

上一篇
接入监控实例并启用采集任务
下一篇
GPU节点资源