GPU资源池总览
GPU资源池总览,包含节点使用情况、集群GPU卡分配情况、GPU卡使用情况、CPU&内存使用情况、GPU卡分配数、GPU卡分配率、GPU卡利用率、GPU卡显存利用率、节点信息、占用GPU的工作负载信息。
前提条件
- 已安装CCE AI Job Scheduler组件且版本 >= 1.7.9
- 已安装CCE GPU Manager组件
- 已接入监控实例
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务
使用方法
- 登录容器引擎CCE控制台。
- 点击左侧集群管理,在集群列表中选择您需要的集群名称,在右侧操作>更多中点击Prometheus监控,即可跳转至Prometheus监控服务。
- 在Prometheus监控页面下方选项中选择云原生AI监控,随后选择GPU资源池总览。
GPU资源池总览如图所示
您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新。
GPU资源池总览具体说明
节点使用情况
监控项 |
说明 |
总节点数 |
集群中所有节点 |
已分配节点数 |
可用GPU卡数为0的节点 |
空闲节点数 |
GPU卡数大于0的节点,含污点节点 |
不可用节点数 |
封锁或not ready节点 |
集群卡分配情况
监控项 |
说明 |
总卡数 |
集群中所有节点上的GPU卡数 |
已分配卡数 |
已分配使用中的GPU卡数 |
空闲卡数 |
GPU卡数大于0的节点,含污点节点空闲卡数 |
不可用卡数 |
集群中节点上的不可用卡数 |
卡使用情况
监控项 |
说明 |
卡平均利用率 |
当前集群内所有节点上GPU卡平均利用率实时值,卡平均利用率=sum(所有节点GPU卡利用率)/所有节点GPU卡数 |
卡显存平均利用率 |
当前集群内所有节点上GPU卡显存平均利用率实时值,显存平均利用率=sum(所有节点GPU卡显存利用率)/所有节点GPU卡数 |
CPU&内存
监控项 |
说明 |
CPU核数 |
当前集群内CPU总核数 |
CPU平均利用率 |
当前集群内所有CPU平均利用率实时值 |
内存总量 |
当前集群内存总量 |
内存平均利用率 |
当前集群内所有内存平均利用率实时值 |
利用率 & 分配率
监控项 |
说明 |
卡分配数 |
已分配GPU卡数 |
卡分配率 |
分配率=已分配GPU卡数/总GPU卡数 |
整体GPU平均利用率 |
当前集群内所有节点上GPU卡平均利用率实时值,平均利用率=sum(所有节点GPU卡利用率)/所有节点GPU卡数 |
运行中任务GPU平均利用率 |
GPU平均利用率=sum(已分配GPU卡利用率)/已分配GPU卡数 |
整体GPU显存平均利用率 |
当前集群内所有节点上GPU卡显存平均利用率实时值,显存平均利用=sum(所有节点GPU卡显存利用率)/所有节点GPU卡数 |
运行中任务GPU显存平均利用率 |
GPU显存平均利用率=sum(已分配GPU卡显存利用率)/已分配GPU卡数 |
空闲节点统计
监控项 |
说明 |
空闲节点分布实时统计 |
当前集群内的空闲节点数量分布情况 |
空闲节点分布趋势 |
当前集群内的空闲节点分布历史趋势 |
卡型号 |
当前集群中已有的GPU卡型号 |
已分配卡数 |
集群中已分配使用的该型号GPU的数量 |
空闲卡数 |
集群中空闲未被分配的该型号GPU数量 |
总卡数 |
集群中该型号GPU卡总数量 |
空闲x卡节点数 |
集群中单节点空闲x卡的节点数量 |
节点信息
监控项 |
说明 |
节点名称 |
当前集群内的节点名称 |
分配卡数 |
当前集群内节点上分配的GPU卡数 |
GPU-Pod数 |
当前节点内占用GPU资源的Pod数量 |
CPU利用率 |
当前节点内所有CPU平均利用率实时值 |
内存利用率 |
当前节点内所有内存平均利用率实时值 |
节点状态 |
当前节点状态 |
CPU核数 |
当前节点内CPU总核数 |
内存总量 |
当前节点内存总量 |
占用GPU的工作负载信息
监控项 |
说明 |
负载名称 |
当前集群占用GPU的工作负载名称 |
类型 |
当前集群占用GPU的工作负载类型 |
命名空间 |
当前集群占用GPU的工作负载所在命名空间 |
开始时间 |
当前集群占用GPU的工作负载开始时间 |
运行时长 |
当前集群占用GPU的工作负载运行时长 |
GPU配给卡数 |
当前集群占用GPU的工作负载配给GPU卡数 |
显存平均利用率 |
当前集群占用GPU的工作负载内所有GPU卡显存平均利用率实时值 |
GPU平均利用率 |
当前集群占用GPU的工作负载内GPU卡平均利用率实时值 |
内存使用量 |
当前集群占用GPU的工作负载的内存使用量 |
CPU核数 |
当前集群占用GPU的工作负载的CPU核数 |