CCE AI Job Scheduler 说明
更新时间:2022-09-23
组件介绍
任务调度组件,支持调度管理各种AI任务,结合 CCE Deep Leaning Frameworks Operator,可实现直接在 CCE 上进行深度学习模型训练。
组件功能
- 支持丰富的调度策略和增强型的 Job 管理能力。
- 调度策略支持 spread 和 binpack 两种,binpack 表示多个 Pod 会优先集中共享使用同一 GPU 卡,适用于需要提高 GPU 资源利用率的场景,spread 表示多个 Pod 会尽量分散使用不同的 GPU 卡,使用于 GPU 高可用场景。
- 抢占模式支持队列内优先级抢占和队列间超发抢占。队列内优先级抢占指同一队列中,优先级高的任务可抢占优先级低任务的资源,保障高优先级任务的运行;队列间超发抢占是指A队列资源用满B队列有空闲资源时,此时若A队列上提交了新任务,将调度到B队列上运行,当B队列上有新任务提交发现资源不足时,将Kill超发任务保障B队列任务运行。
抢占功能使用可参考队列管理和任务管理中相关说明。 - 拓扑感知支持节点内拓扑感知和节点间拓扑感知。节点内拓扑感知将优先将AI任务调度到相邻的GPU卡上保障NVLINK通信最优;节点间拓扑感知将优先将AI任务调度到同一TOR下,保障节点间通信推优,从而提升整体训练效率。
使用场景
您可以直接在 CCE 集群上运行深度学习任务,提高 AI 工程效率。
限制说明
- 仅支持v1.18及以上版本的 Kubernetes 集群。
安装组件
- 登录百度智能云官网,并进入管理控制台。
- 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的 集群管理 > 集群列表 。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击 组件管理 。
- 在组件管理列表中选择 CCE AI Job Scheduler 组件单击“安装。
- 在组件配置页面中完成深度学习框架配置。
- 调度策略支持 spread 和 binpack 两种,binpack 表示多个 Pod 会优先集中共享使用同一 GPU 卡,适用于需要提高 GPU 资源利用率的场景,spread 表示多个 Pod 会尽量分散使用不同的 GPU 卡,使用于 GPU 高可用场景。
- 抢占模式支持队列内优先级抢占和队列间超发抢占。队列内优先级抢占指同一队列中,优先级高的任务可抢占优先级低任务的资源,保障高优先级任务的运行;队列间超发抢占是指A队列资源用满B队列有空闲资源时,此时若A队列上提交了新任务,将调度到B队列上运行,当B队列上有新任务提交发现资源不足时,将Kill超发任务保障B队列任务运行。
- 拓扑感知支持节点内拓扑感知和节点间拓扑感知。节点内拓扑感知将优先将AI任务调度到相邻的GPU卡上保障NVLINK通信最优;节点间拓扑感知将优先将AI任务调度到同一TOR下,保障节点间通信推优,从而提升整体训练效率。
- 点击“安装”按钮完成组件的安装。