昇腾工作负载资源
更新时间:2026-03-23
前提条件
- 已安装CCE Ascend Mindx DL组件
- 当前账号下已创建可用的 CCE 集群,且目标集群已关联 Prometheus 监控实例。* 已接入监控实例
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务
使用方法
导航路径:集群管理->集群列表->目标集群->更多->Prometheus 监控->云原生 AI 监控->昇腾工作负载资源1. 登录容器引擎CCE控制台。
- 点击 【集群管理】,在 【集群列表】 中选择目标 集群名称,并点击 【更多】 -> 【Prometheus 监控】。

- 在 Prometheus 监控 页面中,选择 【云原生 AI 监控】,再选择 【昇腾工作负载资源】。
- 根据需要设置 监控时间,并使用 【手动刷新】 或 【自动刷新】。
昇腾工作负载资源具体说明
卡数&NPU资源使用情况
| 监控项 | 说明 |
|---|---|
| 卡数 | 当前工作负载的NPU卡数 |
| NPU利用率 | 当前工作负载所有NPU的平均利用率实时值 |
| 显存利用率 | 当前工作负载所有显存的平均利用率实时值 |
| 显存使用量 | 当前工作负载所有显存的使用量实时值 |
)
NPU节点使用概要
| 监控项 | 说明 |
|---|---|
| 命名空间 | 当前工作负载中NPU节点所在命名空间 |
| 节点名称 | 当前工作负载中NPU节点名称 |
| Pod名称 | 当前工作负载中NPU节点中运行Pod名称 |
| NPU配给卡数 | 当前工作负载中NPU节点的NPU配给卡数 |
| NPU平均利用率 | 当前工作负载中NPU节点的NPU平均利用率 |
| 显存使用量 | 当前工作负载中NPU节点的显存使用量 |
| 显存平均利用率 | 当前工作负载中NPU节点的显存平均利用率 |

评价此篇文章
