GPUManager组件
所有文档
menu

容器引擎 CCE

GPUManager组件

产品详情自助选购

GPUManager组件,包含GPUManager组件异常pod 数量、GPUManager组件重启次数,以及GPUManager相关组件的cpu利用率和men使用量。

前提条件

使用方法

  1. 登录容器引擎CCE控制台
  2. 点击左侧集群管理,在集群列表中选择您需要的集群名称,在右侧操作>更多中点击Prometheus监控,即可跳转至Prometheus监控服务

image.png

  1. Prometheus监控页面下方选项中选择云原生AI监控,随后选择GPUManager组件

GPUManager组件如图所示

image.png

您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新

GPUManager组件具体说明

监控项 说明
GPUManager组件异常pod数量 当前集群GPUManager相关组件有异常的Pod数量。
指标异常:异常Pod数量大于0则为异常,需要查看异常原因。
GPUManager组件异常pod率 当前集群GPUManager相关组件有异Pod率。
CPU利用率top10 当前集群GPUManager相关各组件中cpu利用率前十的Pod。
Memory利用率top10 当前集群GPUManager相关各组件中Memory利用率前十的Pod。

image.png

上一篇
AI 加速套件
下一篇
AI Job Scheduler组件