创建和管理资源队列
更新时间:2026-04-16
概述
资源队列是全托管资源池中进行算力分配与任务调度的核心单元。所有提交至全托管资源池的工作负载(如开发机、训练任务、推理服务)均需归属于特定的资源队列,方可获得算力资源的调度与执行。
通过创建资源队列,您可以为不同的团队或项目划分专属的算力资源池,实现资源的逻辑隔离、配额管控与高效调度。
权限与访问
- 访问入口
登录百度百舸·AI计算平台控制台 → 左侧导航栏选择 【全托管资源池】→查看【资源队列】Tab页面 → 单击 【新建资源队列】 按钮 → 进入创建队列页面。
-
权限说明
- 操作性: 仅资源池管理员或者AIHCFullControlPolicy的用户可以创建和删除队列。
- 可见性: 队列管理员及队列开发者均可查看所属队列的列表和详情详情的所有信息。

创建队列参数详解
为确保您清晰理解各项配置的含义,以下提供详细的参数说明表:
| 配置分类 | 参数名称 | 选择类型 | 说明 | 注意事项 |
|---|---|---|---|---|
| 基本信息 | 队列名称 | 必填 | 支持大小写字母、数字、中文及 -、_、/ 特殊字符,长度不超过63字符。 |
|
| 备注 | 选填 | 用于记录队列用途、负责人等信息,长度不超过300字符。 | 便于后续的资源管理与识别。 | |
| 资源信息 | 来源类型 | 固定 | 固定为“全托管资源池”。 | 由平台统一管理底层物理资源。 |
| 资源池 | 必选 | 从下拉框选择队列所属的物理资源池。 | 需确保目标资源池状态正常且有可用配额。 | |
| GPU虚拟化 | 可选 | 开启后支持按显存大小切分GPU卡(0-1之间小数分配)。 | 需满足节点和容器的操作系统、驱动及CUDA版本兼容性;创建后不可修改。 | |
| 节点规格 | 必选 | 首次创建仅支持添加同一可用区、同一芯片类型、同一弹性高性能计算集群(EHPC)下的一种规格套餐节点。 | 后续扩展支持分批添加不同CPU/内存配置的节点;特殊需求需提工单申请。 | |
| 负载类型 | 必选 | 选择队列支持的工作负载类型(如开发机、分布式训练、推理服务)。 | 创建后不可删除已配置的类型,需谨慎选择。 | |
| 高级配置 | 调度策略 | 必选 | 提供“遍历策略”和“FIFO策略”两种选项。1. 遍历策略:跳过无法出队的任务,依次尝试后续任务。2. FIFO策略:严格按照任务提交顺序依次调度。 | 请根据业务对任务优先级的需求进行选择。 |
| 超时重排 | 可选 | 开启后,排队超过设定时间(默认30分钟)的任务会自动重新排队。 | 可避免长尾任务阻塞后续任务,支持自定义超时时间。 | |
| 空闲资源出借 | 可选 | 开启后,空闲时段允许临时任务使用闲置资源。 | 当本队列有非闲时任务排队时,系统将立即回收所借出的资源,以提高整体资源利用率。 | |
| 队列状态 | 可选 | 默认为“开启”。 | “关闭”后新提交任务将进入排队状态,已运行任务不受影响,可用于临时暂停队列接收新任务。 |

队列管理:编辑与删除
在队列创建完成后,您可以根据业务需求对队列配置进行调整,或在资源不再使用时安全地移除队列。
编辑资源队列
对于已有的资源队列,系统支持灵活调整其调度策略与运行状态,以适应动态变化的业务场景。点击操作栏中的“编辑”按钮,在弹出的“编辑资源队列”对话框中,您可以修改以下配置:
- 负载类型:展示当前队列已配置的负载类型(如“分布式训练”)。注意:此选项在队列创建后锁定,不可删除已配置的负载类型,以确保运行中任务的稳定性。
- 调度策略:支持在“遍历策略”与“FIFO策略”之间切换。
- 超时重排:可开启或关闭,并调整超时时间(默认30分钟)。开启后,排队超过设定时长的任务将自动移至队尾,防止长尾任务占用调度通道。
- 空闲资源出借:可开启或关闭。开启后,在队列空闲时段,系统允许其他临时任务借用闲置资源;一旦本队列有新任务排队,借出资源将被立即回收。
- 队列状态:可开启或关闭队列。关闭后,新提交的任务将进入排队状态,但已运行的任务不受影响,适用于临时维护或暂停接收新任务的场景。
- 确认修改无误后,点击“确定”保存配置。

删除资源队列
删除队列是一项不可逆的操作,请务必谨慎执行。在删除队列前,系统强制要求清理所有关联资源,以确保数据一致性与资源回收的完整性。
删除队列的前置条件:在执行删除操作前,您必须手动删除该队列下所有正在运行或已创建的工作负载,包括但不限于:开发机实例、训练任务、推理服务等。
删除后的资源去向:
- 计算节点释放:队列删除后,其占用的所有计算节点将自动释放回所属的“全托管资源池”。
- 资源再利用:释放回资源池的节点可被其他队列重新分配使用,或用于创建新的资源队列。
- 资源退订:若这些节点不再需要,您也可以在资源池管理页面中对其进行退订操作,以停止计费。
查看与管理队列
队列创建成功后,您可以通过以下方式查看与管理:
- 列表查看:在【资源队列】页面,您可以查看已创建的队列列表及其基本信息。
-
详情查看:
- 点击队列名称进入队列详情页。
- 在概览面板查看队列的基本信息(如创建时间、调度策略)及资源水位(CPU/内存/加速芯片的总量与分配量)。
- 通过节点管理、负载列表等Tab页进行具体的资源与任务治理。
混合调度能力
-
功能概述
- 全托管资源池支持A100与A800混合调度服务。该功能允许您将A100与A800两种型号的GPU节点纳入同一队列进行统一管理。系统会将两种芯片的资源描述符进行抽象合并,实现跨型号的透明调度。您在提交训练任务时,无需关注底层具体的芯片型号,系统将自动分配可用资源,保障任务的弹性扩容与稳定运行。
-
网络环境要求
- EHC一致性: A100与A800节点必须处于同一个EHC(弹性高性能计算集群)下,以确保节点间网络互通与低延迟通信。
-
队列配置说明
- 开关展示逻辑: 当系统检测到当前资源池中同时存在A100和A800两种资源时,创建队列页面将自动展示【开启多芯】开关。
- 不可逆特性: 一旦开启【队列多芯】,该队列将被锁定,仅支持添加A100和A800节点,不支持关闭或多芯类型变更。
- 功能互斥: 若队列已开启【GPU虚拟化功能】,则无法开启【队列多芯】,两者互斥。
-
节点管理规则
- 混合添加模式: 在已开启多芯的队列中,您可以分别添加A100和A800的套餐节点,系统将自动合并计算资源总量。
- 单一限制模式: 若队列未开启多芯(或资源池不满足混合条件),则严格限制仅能添加单一规格/或同类规格的节点。
评价此篇文章
