昇腾资源池总览
所有文档
menu

容器引擎 CCE

昇腾资源池总览

产品详情自助选购

前提条件

使用方法

  1. 登录容器引擎CCE控制台
  2. 点击左侧集群管理,在集群列表中选择您需要的集群名称,在右侧操作>更多中点击Prometheus监控,即可跳转至Prometheus监控服务

image.png

  1. Prometheus监控页面下方选项中选择云原生AI监控,随后选择昇腾资源池总览

昇腾资源池总览如图所示

image.png

您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新

昇腾资源池总览具体说明

节点使用情况

监控项 说明
总节点数 集群中所有节点
已分配节点数 可用NPU卡数为0的节点
空闲节点数 NPU卡数大于0的节点,含污点节点
不可用节点数 封锁或not ready节点

集群卡分配情况

监控项 说明
总卡数 集群中所有节点上的NPU卡数
已分配卡数 已分配使用中的NPU卡数
空闲卡数 NPU卡数大于0的节点,含污点节点空闲卡数
不可用卡数 集群中节点上的不可用卡数

卡使用情况

监控项 说明
卡平均利用率 当前集群内所有节点上NPU卡平均利用率实时值,卡平均利用率=sum(所有节点NPU卡利用率)/所有节点NPU卡数
卡显存平均利用率 当前集群内所有节点上NPU卡显存平均利用率实时值,显存平均利用率=sum(所有节点NPU卡显存利用率)/所有节点NPU卡数

CPU&内存

监控项 说明
CPU核数 当前集群内CPU总核数
CPU平均利用率 当前集群内所有CPU平均利用率实时值
内存总量 当前集群内存总量
内存平均利用率 当前集群内所有内存平均利用率实时值

NPU节点信息

监控项 说明
节点名称 当前集群内的节点名称
卡类型 当前集群内的卡类型
CPU利用率 当前节点内所有CPU平均利用率实时值
内存利用率 当前节点内所有内存平均利用率实时值
CPU核数 当前节点内CPU总核数
内存总量 当前节点内存总量
卡总数 当前节点NPU卡总数
NPU平均利用率 当前集群内节点上NPU卡的平均利用率
NPU-Pod数 当前节点内占用NPU资源的Pod数量
已分配卡数 当前集群内节点上分配的NPU卡数
NPU显存平均利用率 当前集群内节点上NPU卡显存的平均利用率

image.png

占用NPU的工作负载信息

监控项 说明
负载类型 当前集群占用NPU的工作负载类型
负载名称 当前集群占用NPU的工作负载名称
命名空间 当前集群占用NPU的工作负载所在命名空间
NPU配给卡数 当前集群占用NPU的工作负载配给NPU卡数
显存平均利用率 当前集群占用NPU的工作负载内所有NPU卡显存平均利用率实时值
NPU平均利用率 当前集群占用NPU的工作负载内NPU卡平均利用率实时值
内存使用量 当前集群占用NPU的工作负载的内存使用量
CPU核数 当前集群占用NPU的工作负载的CPU核数

image.png

上一篇
昇腾工作负载资源
下一篇
接入监控实例并开启采集任务