GPUManager组件
更新时间:2024-06-13
GPUManager组件,包含GPUManager组件异常pod 数量、GPUManager组件重启次数,以及GPUManager相关组件的cpu利用率和men使用量。
前提条件
- 已安装CCE GPU Manager组件
- 已接入监控实例
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务
使用方法
- 登录容器引擎CCE控制台。
- 点击左侧集群管理,在集群列表中选择您需要的集群名称,在右侧操作>更多中点击Prometheus监控,即可跳转至Prometheus监控服务。
- 在Prometheus监控页面下方选项中选择云原生AI监控,随后选择GPUManager组件。
GPUManager组件如图所示
您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新。
GPUManager组件具体说明
监控项 | 说明 |
---|---|
GPUManager组件异常pod数量 | 当前集群GPUManager相关组件有异常的Pod数量。 指标异常:异常Pod数量大于0则为异常,需要查看异常原因。 |
GPUManager组件异常pod率 | 当前集群GPUManager相关组件有异Pod率。 |
CPU利用率top10 | 当前集群GPUManager相关各组件中cpu利用率前十的Pod。 |
Memory利用率top10 | 当前集群GPUManager相关各组件中Memory利用率前十的Pod。 |