队列空闲资源出借
更新时间:2026-03-31
概述
本文介绍百舸全托管资源池如何通过队列空闲资源出借与闲时分布式训练任务,解决多队列资源忙闲不均、排队阻塞问题,提升全资源池整体算力利用率,同时保障核心业务资源优先供给。
功能概述
- 队列可开启空闲资源出借,将闲置算力共享给同资源池其他队列
- 分布式训练任务可开启使用闲时资源,优先使用共享闲时资源,减少排队
- 出借资源可被抢占回收:当出借队列有非闲时任务排队时,立即回收资源,保障核心业务
- 资源上限:全资源池所有队列均开启出借时,闲时任务最大可用量 = 资源池总资源量
使用前提
- 已登录百度智能云控制台,拥有全托管资源池,并可访问全托管资源池相关页面。
- 已具备资源池管理员或 AIHCfullcontrol 权限。
队列配置:开启闲时资源出借
创建队列时配置
- 进入 全托管资源池 → 资源队列 → 创建队列
- 基础配置中找到空闲资源出借开关,默认关闭
- 开启后,系统将在空闲时段允许闲时任务临时使用闲置资源;一旦本队列中有非闲时任务排队,将立即收回所借出的资源

编辑队列开启或关闭空闲资源出借
- 队列列表新增闲时资源出借字段,展示:已开启 / 未开启
- 存量队列默认:未开启
- 编辑关闭出借:不影响已在运行的闲时任务,仅禁止新闲时任务借用


队列详情与监控
队列详情页新增展示:
- 资源概览增加闲时资源分配量:包含本队列闲时任务 + 其他队列借用本队列的闲时任务(可被抢占)
- 当队列开启“空闲资源出借”功能时,闲时任务会使用部分当前空闲的加速芯片、CPU 和内存资源。 这部分被闲时任务占用的资源不计入队列和节点的已分配资源统计中, 因此您看到的“空闲量”仍可用于提交非闲时任务——系统将在需要时自动回收闲时任务所占资源,优先保障您的非闲时任务调度。
- 监控中卡分配趋势:只统计非闲时任务分配量
- 空闲整卡节点统计与分布趋势:闲时任务占用的卡计算在空闲卡中。(空闲任务可以非闲时任务抢占,不影响非闲时任务调度)

训练任务使用:使用闲时资源
操作步骤
- 进入分布式训练 → 创建训练任务
- 选择有权限的队列
- 开启使用闲时资源开关
-
配置实例规格:
- 不受本队列配额上限限制,仅受资源池总量约束
- 必须与队列同规格族匹配
- 队列无 GPU 则不可选 GPU 资源
- 提交任务,闲时资源充足时自动调度运行
抢占与中断机制
- 触发条件:出借队列有非闲时任务排队 → 立即回收出借资源
- 任务状态:被抢占后标记为被抢占,可在 Timeline 查看事件
- 建议:开启任务通知与自动重试,配合 Checkpoint 实现无缝续跑
核心规则与约束
- 资源隔离:闲时资源仅在同全托管资源池内共享,不跨资源池
- 优先级保障:非闲时任务 > 闲时任务,出借队列业务绝对优先
- 规格强一致:闲时任务必须使用与队列同规格族资源,不跨规格调度
- 状态一致性:关闭出借不中断存量闲时任务,仅拒绝新任务借用
常见问题
Q1:闲时任务被抢占后怎么办?
A:任务会标记为被抢占,建议开启自动重试与 Checkpoint,平台会在资源恢复后自动续训。
Q2:为什么无法开启闲时资源出借?
A:已经开启GPU虚拟化的队列不支持开启闲时资源出借。
Q3:闲时任务可用资源受哪些限制?
A:受资源池总资源、芯片类型、可用区与 EHC 集群约束,不跨芯片类型、不跨 AZ、不垮EHC集群。
评价此篇文章
