昇腾资源池总览
更新时间:2026-03-23
前提条件
- 已安装 CCE Ascend Mindx DL 组件。
- 已接入监控实例。
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务。
使用方法
- 登录容器引擎CCE控制台。 导航路径:容器引擎 CCE 控制台->集群管理->集群列表->目标集群->更多->Prometheus 监控->云原生 AI 监控->资源池总览监控
- 在 【集群管理】 的 【集群列表】 中选择目标集群,点击 【更多】,选择 【Prometheus 监控】。

- 在 【Prometheus 监控】 页面点击 【云原生 AI 监控】,进入 【资源池总览监控】(对应“昇腾资源池总览”)。

- 按需设置监控时间范围,点击 【手动刷新】,并设置 【自动刷新】 间隔。
-
查看节点使用情况
导航路径:容器引擎 CCE 控制台->集群管理->集群列表->目标集群->更多->Prometheus 监控->云原生 AI 监控->资源池总览监控->节点使用情况
-
查看集群卡分配情况
导航路径:容器引擎 CCE 控制台->集群管理->集群列表->目标集群->更多->Prometheus 监控->云原生 AI 监控->资源池总览监控->加速卡概览
-
查看卡使用情况
导航路径:容器引擎 CCE 控制台->集群管理->集群列表->目标集群->更多->Prometheus 监控->云原生 AI 监控->资源池总览监控->利用率(所选时间段内的平均值)
-
查看 CPU 与内存监控
导航路径:容器引擎 CCE 控制台->集群管理->集群列表->目标集群->更多->Prometheus 监控->云原生 AI 监控->资源池总览监控->CPU 与内存
-
查看 NPU 节点信息
导航路径:容器引擎 CCE 控制台->集群管理->集群列表->目标集群->更多->Prometheus 监控->云原生 AI 监控->资源池总览监控->节点信息
-
查看占用 NPU 的工作负载信息
导航路径:容器引擎 CCE 控制台->集群管理->集群列表->目标集群->更多->Prometheus 监控->云原生 AI 监控->资源池总览监控->占用卡的工作负载信息## 昇腾资源池总览具体说明
节点使用情况
| 监控项 | 说明 |
|---|---|
| 总节点数 | 集群中所有节点 |
| 已分配节点数 | 可用NPU卡数为0的节点 |
| 空闲节点数 | NPU卡数大于0的节点,含污点节点 |
| 不可用节点数 | 封锁或not ready节点 |
集群卡分配情况
| 监控项 | 说明 |
|---|---|
| 总卡数 | 集群中所有节点上的 NPU 卡总数 |
| 已分配卡数 | 已分配使用中的 NPU 卡数(页面可能显示为“分配量”) |
| 空闲卡数 | 当前可分配的 NPU 空闲卡数(含污点节点空闲卡数) |
| 不可用卡数 | 集群中不可用的 NPU 卡数 |
卡使用情况
| 监控项 | 说明 |
|---|---|
| 卡平均利用率 | 当前集群内所有节点上 NPU 卡平均利用率实时值,计算方式为:sum(所有节点 NPU 卡利用率) / 所有节点 NPU 卡数 |
| 卡显存平均利用率 | 当前集群内所有节点上 NPU 卡显存平均利用率实时值,计算方式为:sum(所有节点 NPU 卡显存利用率) / 所有节点 NPU 卡数 |
CPU & 内存
| 监控项 | 说明 |
|---|---|
| CPU 核数 | 当前集群内 CPU 总核数 |
| CPU 平均利用率 | 当前集群内所有 CPU 平均利用率实时值 |
| 内存总量 | 当前集群内存总量 |
| 内存平均利用率 | 当前集群内所有内存平均利用率实时值 |
NPU 节点信息
| 监控项 | 说明 |
|---|---|
| 节点名称 | 当前集群内的节点名称 |
| 卡类型 | 当前集群内的卡类型 |
| CPU 利用率 | 当前节点内所有 CPU 平均利用率实时值 |
| 内存利用率 | 当前节点内所有内存平均利用率实时值 |
| CPU 核数 | 当前节点内 CPU 总核数 |
| 内存总量 | 当前节点内存总量 |
| 卡总数 | 当前节点 NPU 卡总数 |
| NPU 平均利用率 | 当前集群内节点上 NPU 卡的平均利用率 |
| NPU-Pod 数 | 当前节点内占用 NPU 资源的 Pod 数量 |
| 已分配卡数 | 当前集群内节点上分配的 NPU 卡数 |
| NPU 显存平均利用率 | 当前集群内节点上 NPU 卡显存的平均利用率 |
占用 NPU 的工作负载信息
| 监控项 | 说明 |
|---|---|
| 负载类型 | 当前集群占用 NPU 的工作负载类型 |
| 负载名称 | 当前集群占用 NPU 的工作负载名称 |
| 命名空间 | 当前集群占用 NPU 的工作负载所在命名空间 |
| NPU 配给卡数 | 当前集群占用 NPU 的工作负载配给 NPU 卡数 |
| 显存平均利用率 | 当前集群占用 NPU 的工作负载内所有 NPU 卡显存平均利用率实时值 |
| NPU 平均利用率 | 当前集群占用 NPU 的工作负载内 NPU 卡平均利用率实时值 |
| 内存使用量 | 当前集群占用 NPU 的工作负载内存使用量 |
| CPU 核数 | 当前集群占用 NPU 的工作负载 CPU 核数 |
评价此篇文章
