配置训练任务低利用率自动停止策略
更新时间:2026-03-31
使用背景
在分布式训练任务量大、集群资源紧张的背景下,队列管理员可通过配置训练任务低利用率自动停止策略,有效减少算力闲置浪费、降低训练成本,提升集群整体资源利用率与任务调度效率
使用说明
- 该策略配置到在队列维度,对当前队列下的训练任务生效
- 支持全托管资源池和自运维资源池的队列
- 仅支持队列管理员、资源池管理员开启该策略
开启低利用率自动停止策略
在资源池 - 【资源队列】- 你要配置的【队列】-【队列配置】中可以开启优先级规则配置,该配置默认为关闭状态,关闭状态下所有队列成员创建任务不会被策略关闭任务

开启后,您可以在弹窗内配置规则:

配置规则
对于个资源队列,您可以配置两条通过或逻辑连接的规则组,每个规则组内部通过与逻辑进行连接
- 或逻辑:满足任意条件即可触发
- 与逻辑:满足组内所有条件才会触发
- 例如,您可以配置如下图所示的规则组来自动关闭队列中所有运行时长大于 24 小时或者 GPU 资源利用率小于等于10 % 的任务:

您也可以通过配置排除策略来实现高优先级任务豁免,来避免一些长期任务因为训练中周期性/不同原因导致的低利用率触发关闭规则。
如下图所示,队列中高、中优先级的任务都不会因为触发规则而关闭任务

查看被停止的任务
队列管理员可以点击【停止记录】按钮来查看该队列触发规则停止的任务记录列表。

同时,被自动停止的任务,在任务timeline以及任务状态的浮窗可以看到任务被停止的原因

评价此篇文章
