百度智能云

搜索本产品文档关键词

所有文档

没有找到结果，请重新输入

容器引擎 CCE

GPU节点资源

更新时间：2025-05-30

GPU 节点资源，包含占用 GPU 的 Pod 数量、GPU 卡分配情况、GPU 卡使用情况、GPU & Memory 总量、GPU & Memory 利用率、GPU 卡平均利用率、GPU 卡利用率、卡平均显存利用率、卡显存利用率、GPU 利用率、Memory 利用率、运行中的占 GPU 的 Pod 列表。

前提条件

已安装 CCE AI Job Scheduler 组件且版本 >= 1.7.9
已安装 CCE GPU Manager 组件
已接入监控实例
需启用采集任务,具体参考文档：接入监控实例并启用采集任务

使用方法

登录容器引擎CCE控制台。
点击左侧集群管理，在集群列表中选择您需要的集群名称，在右侧操作>更多中点击Prometheus监控，即可跳转至Prometheus监控服务。

在Prometheus监控页面下方选项中选择云原生AI监控，随后选择GPU节点资源。

GPU节点资源如图所示

您可以点击右上角按钮，自行设定监控时间、手动刷新、自动刷新。

GPU节点资源具体说明

占用GPU的Pod数量

监控项	说明
占用GPU的Pod数量	当前节点内占用GPU资源的Pod数量

卡分配情况

监控项	说明
总卡数	当前节点内全部GPU卡数
分配数	当前节点内已分配的GPU卡数
卡分配率	分配率=已分配GPU卡数/总GPU卡数

卡使用情况

监控项	说明
卡平均利用率	当前节点内所有GPU卡平均利用率实时值，卡平均利用率=sum(所有GPU卡利用率)/所有GPU卡数
卡显存平均利用率	当前节点内所有GPU卡显存平均利用率实时值，显存平均利用率=sum(所有GPU卡显存利用率)/所有GPU卡数

CPU&Memory总量/利用率

监控项	说明
CPU核数	当前节点内CPU总核数
CPU平均利用率	当前节点内所有CPU平均利用率实时值
内存总量	当前节点内存总量
内存利用率	当前节点内所有内存平均利用率实时值

利用率

监控项	说明
卡平均利用率	当前节点内所有GPU卡平均利用率实时值，卡平均利用率=sum(所有GPU卡利用率)/所有GPU卡数
卡利用率	当前节点内所有GPU卡利用率实时值
卡平均显存利用率	当前节点内所有GPU卡显存平均利用率实时值，显存平均利用率=sum(所有GPU卡显存利用率)/所有GPU卡数
卡显存利用率	当前节点内所有GPU卡显存利用率实时值
CPU利用率	当前节点内所有CPU利用率实时值
Memory利用率	当前节点内所有内存利用率实时值

运行中的占GPU的Pod列表

监控项	说明
负载名称	当前节点运行中的占GPU的Pod所在工作负载名称
类型	当前节点运行中的占GPU的Pod任务类型
命名空间	当前节点运行中的占GPU的Pod所在命名空间
Pod名称	当前节点运行中的占GPU的Pod名称
GPU配给卡数	当前节点运行中的占GPU的Pod的配给GPU卡数
GPU平均利用率	当前节点运行中的占GPU的Pod内GPU卡平均利用率实时值
GPU显存平均利用率	当前节点运行中的占GPU的Pod内GPU卡显存平均利用率实时值
内存使用量	当前节点运行中的占GPU的Pod的内存使用量
CPU核数	当前节点运行中的占GPU的Pod的CPU核数

评价此篇文章

有帮助没帮助

GPU工作负载资源

GPU资源池总览