CCE NPU Manager 说明
更新时间:2022-12-29
组件介绍
一系列NPU(昆仑芯)Device Plugin的集合,结合配套的Scheduler可以实现复杂场景下的GPU资源调度能力。
目前该组件依赖于CCE AI Job Scheduler,若您需要请一同安装,否则可能导致组件功能不可用。
组件功能
NPU共享: 提供为节点上的NPU设备开启显存共享功能,支持将GPU卡按显存大小分配给多个Pod。
算力和显存隔离:多Pod共享单张GPU卡时进行显存和算力级别的隔离。
使用场景
在CCE集群中运行NPU应用时,可以解决AI训练等场景中独占整张卡造成资源浪费的情况,从而提高资源的使用率,降低成本。
安装组件
- 登录百度智能云官网,并进入管理控制台。
- 选择”产品服务>云原生>容器引擎CCE”,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的”集群管理>集群列表”。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击”组件管理”。
- 在组件管理列表中选择“CCE NPU Manager”组件单击”安装”。
- 在配置页面完成组件配置。
- 点击”安装”按钮完成组件的安装。
部署情况
安装CCE NPU Manager组件,将在Kubernetes集群中部署以下对象:
对象名称 | 所属NameSpace | 所占资源 | 类型 |
---|---|---|---|
cce-xpu-exclusive-device-plugin | kube-system | CPU: 25m Memory: 50Mi | DaemonSet |
cce-xpu-share-device-plugin | kube-system | CPU: 25m Memory: 50Mi | DaemonSet |
cce-xpu-exporter | kube-system | CPU: 100m Memory: 100Mi | DaemonSet |
xpu-device-plugin | kube-system | - | ServiceAccount |
xpu-device-plugin | - | - | ClusterRole |
xpu-device-plugin | - | - | ClusterRoleBinding |
版本记录
版本号 | 适配集群版本 | 更新时间 | 更新内容 |
---|---|---|---|
0.1.0 | CCE/v1.16+ | 2022.11.03 | 新增昆仑加速卡DevicePlugin |