新建队列
更新时间:2024-06-13
您可以新建一个队列,为 AI 任务指定运行所需的资源和操作人员。
前提条件
- 您已成功创建一个 Kubernetes 集群,详情请见创建集群。
- 您已成功安装 CCE AI Job Scheduler 和 CCE Deep Learning Frameworks Operator 组件,否则云原生 AI 功能将无法使用。
限制说明
- 为队列分配 GPU 资源时,需要先安装 CCE GPU Manager 组件。
操作步骤
- 登录百度智能云官网,并进入管理控制台。
- 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的 集群管理 > 集群列表 。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击 云原生AI > 队列管理 。
- 在队列管理页面单击 新建队列 。
- 在新建队列页面中,完成队列基本信息配置:
- 队列名称:自定义队名名称,长度为 1-63 个字符,只能包含数字、小写字母和“-”,且首尾只能是字母或数字。
- 资源超发:当队列资源不足时,可超发到集群中运行,当集群中有高优任务需要运行,会抢占超发任务的运行资源。
- 备注:自定义队列的备注信息,长度不超过 300 个字符。
- 完成队列配额信息配置:
- CPU:为队列指定 CPU 资源大小,输入限制为大于 0 的数且最多保留两位小数。
- Memory:为队列指定内存资源大小,输入限制为大于 0 的数且最多保留两位小数,单位支持 Gi、Mi 切换。
- 独占 GPU:为队列指定按整张卡分配的 GPU 资源,输入限制为大于 0 的整数。
- 共享 GPU:为队列指定按显存大小分配的 GPU 资源,输入限制为大于 0 的整数。
- 独占 NPU:为队列指定按整张卡分配的 NPU 资源,输入限制为大于 0 的整数。
- 共享 NPU: 为队列指定按显存大小分配的 NPU 资源,输入限制为大于 0 的整数.
注意:指定 GPU 和 NPU 资源时需要先安装 CCE GPU Manager 和 CCE NPU Manager 组件
- 完成资源对象配置。
- 对象类型:为队列指定可使用资源对象的类型,目前仅支持“用户”。
- 对象选择:为队列指定可使用该队列资源的子用户,支持多选。
- 点击“确定”按钮,完成队列的新建。