昇腾工作负载资源
更新时间:2024-06-13
前提条件
- 已安装CCE Ascend Mindx DL组件
- 已接入监控实例
- 需启用采集任务,具体参考文档:接入监控实例并启用采集任务
使用方法
- 登录容器引擎CCE控制台。
- 点击左侧集群管理,在集群列表中选择您需要的集群名称,在右侧操作>更多中点击Prometheus监控,即可跳转至Prometheus监控服务。
- 在Prometheus监控页面下方选项中选择云原生AI监控,随后选择昇腾工作负载资源。
昇腾工作负载资源如图所示
您可以点击右上角按钮,自行设定监控时间、手动刷新、自动刷新。
昇腾工作负载资源具体说明
卡数&NPU资源使用情况
监控项 | 说明 |
---|---|
卡数 | 当前工作负载的NPU卡数 |
NPU利用率 | 当前工作负载所有NPU的平均利用率实时值 |
显存利用率 | 当前工作负载所有显存的平均利用率实时值 |
显存使用量 | 当前工作负载所有显存的使用量实时值 |
)
NPU节点使用概要
监控项 | 说明 |
---|---|
命名空间 | 当前工作负载中NPU节点所在命名空间 |
节点名称 | 当前工作负载中NPU节点名称 |
Pod名称 | 当前工作负载中NPU节点中运行Pod名称 |
NPU配给卡数 | 当前工作负载中NPU节点的NPU配给卡数 |
NPU平均利用率 | 当前工作负载中NPU节点的NPU平均利用率 |
显存使用量 | 当前工作负载中NPU节点的显存使用量 |
显存平均利用率 | 当前工作负载中NPU节点的显存平均利用率 |