CCE Ascend Mindx DL说明
更新时间:2024-01-22
组件介绍
CCE Ascend Mindx DL组件是基于昇腾AI处理器的深度学习组件,提供昇腾AI处理器调度、集群性能测试等基础功能,为上层模型训练、模型部署、模型推理等应用提供底层软件支持。
组件功能
- 集群调度:基于Kubernetes增强了对昇腾AI处理器的调度,并支持查看昇腾节点、AI处理器状态。
使用场景
可以使您的CCE集群适配昇腾AI处理器,通过使用高效的集群调度组件,能够迅速部署和管理基于昇腾AI处理器的AI任务,为所有的AI作业提供昇腾AI处理器容器化支持。
注意事项
CCE Ascend Mindx DL组件安装前,请确保集群未安装冲突组件CCE AI Job Scheduler。
安装组件
- 登录 百度智能云官网 ,并进入管理控制台。
- 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的 集群管理 > 集群列表 。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击 组件管理 。
- 在组件管理列表中选择 CCE Ascend Mindx DL 组件单击“安装”。
组件状态确认
通过如下命令查看K8s集群中跟CCE Ascend MindX DL组件相关的Pod,需要满足以下Pod的STATUS都为Running,READY都为1/1,则该组件运行状态为正常。
kubectl get pods -n volcano-system
NAME READY STATUS RESTARTS AGE
volcano-controllers-86bxxxxxx1-xxxx1 1/1 Running 0 038m
volcano-controllers-86bxxxxxx2-xxxx2 1/1 Running 0 038m
volcano-controllers-86bxxxxxx3-xxxx3 1/1 Running 0 138m
volcano-node-controllers-6d8b9xxxxx-xxxxx 1/1 Running 0 09m10s
volcano-scheduler-5bbxxxxxx1-xxxx1 1/1 Running 0 038m
volcano-scheduler-5bbxxxxxx2-xxxx2 1/1 Running 0 138m
volcano-scheduler-5bbxxxxxx3-xxxx3 1/1 Running 0 038m
kubectl get pods -n kube-system
NAME READY STATUS RESTARTS AGE
ascend-device-plugin-daemonset-xxxxx 1/1 Running 0 39m
npu-exporter-xxxxx 1/1 Running 0 39m
kubectl get pods -n mindx-dl
NAME READY STATUS RESTARTS AGE
ascend-operator-manager-xxxxxxx-xxxxx 1/1 Running 0 038m