CCE NPU Manager 说明
更新时间:2024-11-21
组件介绍
一系列NPU Device Plugin、Exporter的集合,结合配套的Scheduler可以实现NPU资源调度能力。
目前该组件依赖于CCE AI Job Scheduler,若您需要请一同安装,否则可能导致组件功能不可用。
组件功能
支持对NPU资源管理、分配以及指标上报,支持使用RDMA网络。
使用场景
在CCE集群中有NPU资源时,需要安装该组件后才能正常调度使用。
安装组件
- 登录百度智能云官网,并进入管理控制台。
- 选择”产品服务>云原生>容器引擎CCE”,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的”集群管理>集群列表”。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击”组件管理”。
- 在组件管理列表中选择“CCE NPU Manager”组件单击”安装”。
- 点击”确认”按钮完成组件的安装。
组件状态确认
通过如下命令查看K8s集群中跟CCE NPU Manager组件相关的Pod,需要满足以下Pod的STATUS都为Running,READY都为1/1,则该组件运行状态为正常。(该命令输出的pod数量跟集群节点数量有关,每个节点对应3个pod)
kubectl -n kube-system get po | grep xpu
xpu-device-plugin-daemonset-v3-8pzxn 1/1 Running 0 55s
xpu-exporter-v3-bm6cd 1/1 Running 0 55s
rdma-shared-dp-ds 1/1 Running 0 55s