资源队列CPU节点弹性伸缩
概述
百舸平台支持全托管资源池中的资源队列针对CPU节点进行自动弹性伸缩。开启该功能后,平台将根据队列中的业务负载,自动触发节点的扩容与缩容,帮助用户在保障业务连续性的前提下,实现资源的按需使用与自动释放,最大化资源利用率并降低运维成本。
典型使用场景:
- 任务量突增时,平台自动扩容节点,避免任务长时间排队等待
- 业务低峰期(如夜间),平台自动缩容空闲节点,减少不必要的资源费用
- 无需专人监控负载、手动调整节点数量
使用前提
在使用弹性伸缩功能前,请确认以下条件:
- 账号权限:仅平台管理员(拥有 AIHCFullControlPolicy 权限)可开启或关闭弹性伸缩及自动缩容配置。
- 队列类型:弹性伸缩仅支持纯 CPU 节点,暂不支持GPU节点及CPU-GPU混合队列。
- 创建时机:弹性伸缩只能在创建队列时开启,已有队列无法事后开启。
- 机型配置:当前版本仅支持单一主机型配置,不支持备选机型池。
- 计费方式:弹性扩容节点仅支持按量付费,不支持预付费。
- 存储与场景:暂不支持PFS存储挂载;开发机场景不支持使用弹性伸缩队列。
- 操作互斥:已开启弹性伸缩的队列,禁止手动添加、移出或转让节点,所有节点变更必须通过弹性伸缩策略执行。
权限要求
| 操作类型 | 所需权限 | 说明 |
|---|---|---|
| 开启/关闭弹性伸缩 | AIHCFullControlPolicy | 仅平台管理员可执行 |
| 配置自动缩容全局开关 | AIHCFullControlPolicy | 仅平台管理员可执行 |
| 查看伸缩配置与活动日志 | 普通用户及以上 | 所有队列成员均可查看 |
| 提交负载/任务 | 普通用户及以上 | 需遵循弹性队列的任务提交规范 |
操作步骤
创建支持弹性伸缩的队列
弹性伸缩必须在创建队列时开启,创建后无法补充开启。
- 进入全托管资源池/资源队列,点击创建队列。
- 在【节点来源】中选择弹性扩容节点。
- 打开弹性伸缩开关。
-
配置节点数量范围:
- 最小节点数:队列保留的最少节点数,可设为 0(即完全空载时释放所有节点)。
- 最大节点数:队列可扩容的上限,受资源池规模约束(例如 L50 资源池最大支持 50 个节点)。
- 添加机型配置:选择 CPU 机型(当前仅支持单选)及对应子网。
- 计费方式默认为按量付费,确认后提交创建。

修改弹性伸缩配置
适用于已开启弹性伸缩的队列,可调整节点数量范围或关闭功能。
- 在队列列表或队列详情页,点击【配置弹性伸缩】。
- 可修改:最小节点数 和 最大节点数。
- 如需关闭弹性伸缩,在配置页关闭开关即可。
注意:
- 关闭弹性伸缩后不可重新开启,现有节点将保留。
- 队列处于【节点伸缩中】状态时,配置操作暂时不可用,请等待伸缩完成后再操作。

配置全局自动缩容策略
自动缩容为资源池级别的全局配置,对资源池内所有已开启弹性伸缩的队列统一生效。
- 进入资源池详情页 > 全局配置 > 节点伸缩配置。
- 打开自动缩容开关(默认关闭)。
- 配置 CPU/内存缩容阈值(默认 50%,范围 0%–100%):当节点的 CPU 或内存资源请求率持续低于该阈值时,触发自动缩容。
- 保存配置。未开启此开关时,系统仅支持自动扩容,不会自动释放节点。
以下参数为系统默认值,仅供参考,不支持修改:
| 参数 | 默认值 | 说明 |
|---|---|---|
| 缩容触发时延 | 10 分钟 | 资源使用率低于阈值并持续该时长后,才触发缩容 |
| 静默时间 | 10 分钟 | 扩容完成后,至少等待该时长才会再次执行缩容 |
| 最大并发缩容数 | 10 | 单次缩容操作最多同时移出的节点数量 |

设置节点缩容保护
对特定节点开启缩容保护后,该节点不会被自动缩容移出,适用于承载重要任务的节点。
- 进入队列详情页 > 节点管理列表。
- 勾选需要保护的节点(支持批量选择)。
- 点击【节点缩容保护】,开启保护。
说明:
- 仅状态为【可用】或【可用(已封锁)】的节点支持该操作。

查看伸缩活动记录
队列级别:
- 进入队列详情页,点击【伸缩活动】标签页。
- 点击【查看状态】,可查看本次伸缩涉及的节点列表(节点 IP、节点 ID、伸缩状态)。
资源池级别:
在资源池详情页可查看资源池范围内的所有伸缩活动,记录中额外包含队列名称和队列 ID,便于跨队列汇总查看。

提交任务至弹性伸缩队列
- 提交训练或推理任务时,选择队列。
- 弹性伸缩队列会标注【弹性伸缩】标识,便于识别。
- 选中弹性伸缩队列后,系统将弹出提示:
该队列已启用弹性伸缩,平台将根据排队任务自动扩容,并在资源空闲时自动缩容。缩容可能导致排队中的负载被终止,请知悉。 注意:
- 开发机不可使用弹性伸缩队列。
-
系统将根据当前队列负载自动判断是否需要扩容:
- 若存在排队任务且达到扩容阈值,系统将自动创建新节点。
- 新节点就绪后,排队任务将自动调度执行。


计费说明
- 弹性扩容的节点采用按量付费方式,按小时出账。
- 节点缩容后即停止计费,建议合理配置缩容阈值以控制成本。
- 具体费用可在费用中心 > 账单中查看。
注意事项
- 弹性伸缩仅支持 CPU 节点,GPU 节点及混合队列不适用。
- 弹性伸缩只能在创建队列时开启,已有队列无法补开,请在创建时规划好。
- 关闭弹性伸缩后不可恢复,操作前请确认业务需求。
- 自动缩容策略以资源池为单位生效,修改配置将影响该资源池内所有弹性伸缩队列。
- 运行中的任务不会被缩容中断,仅排队中(尚未开始运行)的任务可能因缩容受到影响。
- 队列伸缩中状态期间,配置修改操作不可用,请等待伸缩完成。
- 弹性伸缩队列不支持 PFS 存储挂载,如业务依赖 PFS,请使用普通队列。
常见问题
Q1:为什么我无法在已有队列上开启弹性伸缩?
弹性伸缩只能在创建队列时开启,已创建的队列不支持后续开启。如需使用弹性伸缩,请新建队列并在创建时开启该功能。
Q2:关闭弹性伸缩后,现有节点会被删除吗?
不会。关闭弹性伸缩后,队列现有节点将继续保留,不会自动移出。但关闭后无法重新开启弹性伸缩功能。
Q3:自动缩容会影响正在运行的任务吗?
不会。自动缩容只会释放空闲节点,运行中的任务不会被中断。仅处于排队状态(尚未分配到节点运行)的任务可能因节点缩容而受到影响。
Q4:弹性伸缩队列的费用如何计算?
弹性扩容的节点按实际使用时长计费(按量付费,按小时出账)。节点缩容后即停止计费,具体费用可在费用中心的账单中查看。
Q5:为什么【配置弹性伸缩】按钮是灰色不可点击的?
可能有两种原因:① 当前账号不是平台管理员,无操作权限;② 队列处于【节点伸缩中】状态,请等待当前伸缩活动完成后再操作。
Q6:队列开启弹性伸缩后,还能手动移出节点吗?
不可以。 开启了弹性伸缩的队列不支持手动移出节点。
Q7:最大节点数可以设置为多少?
最大节点数受所在资源池规模上限约束。例如,L50 资源池最多支持 50 个节点。具体上限请以创建队列时页面提示为准。
Q8: 为什么队列无法手动添加节点?
已启用弹性伸缩的队列处于自动化管理模式,所有节点变更必须通过调整弹性伸缩策略(修改最小/最大节点数)实现,手动操作入口已被禁用。
Q9: 如何验证弹性伸缩是否生效?
可通过【伸缩活动】Tab查看最近一次扩容/缩容记录,或在队列监控面板观察节点数量随负载变化的趋势曲线。
如有其他问题,请联系平台管理员或提交工单获取支持。
评价此篇文章
