GPU节点资源
GPU节点资源,包含占用GPU的Pod数量、GPU卡分配情况、GPU卡使用情况、GPU&Memory总量、GPU&Memory利用率、GPU卡平均利用率、GPU卡利用率、卡平均显存利用率、卡显存利用率、GPU利用率、Memory利用率和运行中的占GPU的Pod列表。
前提条件
使用方法
- 登录百舸异构计算平台AIHC控制台。
- 在左侧导航栏资源池中选择您想要查看监控大盘的资源池名称,并点击右侧操作中的资源观测。
- 跳转至资源观测页面,选择GPU节点资源。
GPU节点资源如图所示:
您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新。
GPU节点资源具体说明
占用GPU的Pod数量
监控项 |
说明 |
占用GPU的Pod数量 |
当前节点内占用GPU资源的Pod数量 |
卡分配情况
监控项 |
说明 |
总卡数 |
当前节点内全部GPU卡数 |
分配数 |
当前节点内已分配的GPU卡数 |
卡分配率 |
分配率=已分配GPU卡数/总GPU卡数 |
卡使用情况
监控项 |
说明 |
卡平均利用率 |
当前节点内所有GPU卡平均利用率实时值,卡平均利用率=sum(所有GPU卡利用率)/所有GPU卡数 |
卡显存平均利用率 |
当前节点内所有GPU卡显存平均利用率实时值,显存平均利用率=sum(所有GPU卡显存利用率)/所有GPU卡数 |
CPU&Memory总量/利用率
监控项 |
说明 |
CPU核数 |
当前节点内CPU总核数 |
CPU平均利用率 |
当前节点内所有CPU平均利用率实时值 |
内存总量 |
当前节点内存总量 |
内存利用率 |
当前节点内所有内存平均利用率实时值 |
利用率
监控项 |
说明 |
卡平均利用率 |
当前节点内所有GPU卡平均利用率实时值,卡平均利用率=sum(所有GPU卡利用率)/所有GPU卡数 |
卡利用率 |
当前节点内所有GPU卡利用率实时值 |
卡平均显存利用率 |
当前节点内所有GPU卡显存平均利用率实时值,显存平均利用率=sum(所有GPU卡显存利用率)/所有GPU卡数 |
卡显存利用率 |
当前节点内所有GPU卡显存利用率实时值 |
CPU利用率 |
当前节点内所有CPU利用率实时值 |
Memory利用率 |
当前节点内所有内存利用率实时值 |
运行中的占GPU的Pod列表
监控项 |
说明 |
负载名称 |
当前节点运行中的占GPU的Pod所在工作负载名称 |
类型 |
当前节点运行中的占GPU的Pod任务类型 |
命名空间 |
当前节点运行中的占GPU的Pod所在命名空间 |
Pod名称 |
当前节点运行中的占GPU的Pod名称 |
GPU配给卡数 |
当前节点运行中的占GPU的Pod的配给GPU卡数 |
GPU平均利用率 |
当前节点运行中的占GPU的Pod内GPU卡平均利用率实时值 |
GPU显存平均利用率 |
当前节点运行中的占GPU的Pod内GPU卡显存平均利用率实时值 |
内存使用量 |
当前节点运行中的占GPU的Pod的内存使用量 |
CPU核数 |
当前节点运行中的占GPU的Pod的CPU核数 |