资源队列管理详情
概述
资源队列是百度百舸·AI计算平台资源分配与任务调度的核心单元。本指南详细介绍了队列详情页的资源定义、节点管理操作及高级配置策略,帮助管理员高效管理算力资源,优化任务调度效率。
权限与访问
- 访问入口
登录百度百舸·AI计算平台控制台 → 查看【资源队列】Tab页面 → 点击目标【队列名称】 → 进入队列详情。
-
权限说明
- 可见性: 队列管理员及队列开发者均可查看队列详情的所有信息。
- 操作性: 仅队列管理员拥有停止任务、运维节点等治理操作权限。
队列详情概览
进入队列详情页,您将看到队列的基本信息与资源概览面板。
-
基础信息
- 队列名称/ID:队列的唯一标识。
- 所属资源池:该队列归属的物理或逻辑资源池。
- GPU虚拟化:显示是否开启GPU虚拟化功能。
- 调度策略:当前生效的调度算法配置。
- 超时重排策略:任务排队超时后的处理策略。
- 闲时资源出借:显示是否配置了闲时资源出借给其他队列。

- 队列资源概览
队列资源概览展示了资源队列的加速芯片(GPU、XPU等)、CPU及内存的实时状态。为了确保数据准确,各指标定义如下:
| 资源类型 | 指标名称 | 定义说明 |
|---|---|---|
| 加速芯片 (GPU) | 总量 | 队列中所有节点的加速芯片总数。 |
| 最大可用量 | 队列中所有可用节点(已排除故障节点)的加速芯片总数。 | |
| 分配量 | 该队列中所有用户负载(开发机、分布式训练、在线服务)的已分配资源总和。 | |
| 空闲量 | 队列中所有可用节点(已排除故障节点、封锁节点)的空闲芯片总数。 | |
| CPU / 内存 | 总量 | 队列中所有节点的CPU核数或内存总和。 |
| 最大可用量 | 队列中实际可调度和使用的资源上限。即所有可用节点(排除故障节点)的可用量总和。(注:队列中不同节点的可用量可能因系统预留不同而不一致) | |
| 分配量 | 该队列中所有用户负载(开发机、分布式训练、在线服务)的已分配资源总和。 | |
| 空闲量 | 队列中所有可用节点(已排除故障节点、封锁节点)的空闲资源总和。 |
注意: “调度中”的任务(尚未分配节点)不计入分配量。资源数据会随节点管理操作(如添加/移出节点)实时同步更新。
节点管理
在“节点管理”Tab页中,您可以查看队列内节点的基本信息,并进行资源的动态调整。支持以下节点操作:
-
添加节点:将资源加入队列。
- 首次添加限制:仅支持添加同一可用区、同一芯片类型、同一弹性高性能计算集群(EHC)下的同一种规格套餐节点。
- 后续扩展:在满足上述前提条件下,支持分批次加入不同CPU/内存配置(即不同规格套餐)的节点。
- 特殊需求:如需跨上述限制添加节点,请提工单申请处理。
- 移出节点:将该节点从队列释放,资源将返还给资源池,供其他队列使用。
- 封锁设置:临时将节点设置为不可用状态,用于维护或隔离。
-
转让节点:将节点从当前队列转移到另一个队列,注意节点转让规则如下:
- 基础环境一致:仅支持在相同资源池、相同可用区、且节点规格相同的队列间进行转让。
- 网络要求:若节点带有RDMA网卡,必须同属一个弹性高性能计算集群(EHC)。
- 状态要求:正在运行任务的节点不可转出(需确保无进行中任务)。
- 虚拟化兼容:若转入队列启用了GPU虚拟化,节点必须满足特定的驱动、内核及组件要求,否则无法转入。
队列工作负载

负载列表展示了创建时间近30天内的任务(支持时间范围筛选)。列表按负载类型分为三类:开发机、分布式训练、在线服务,支持下载负载列表。
- 调度状态体系
本功能重点关注任务的调度状态(即资源分配进度),与业务状态有所区分:
| 调度状态 | 含义说明 | 典型场景 |
|---|---|---|
| 排队中 | 任务已提交,正在等待配额分配 | 资源不足,等待其他任务释放资源 |
| 调度中 | 配额已分配,正在向节点下发 | 寻找合适节点或K8s正在拉取镜像 |
| 启动中 | Pod已初始化,正在启动容器 | 容器正在创建中 |
| 运行中 | 任务正常运行 | 训练/推理正在进行 |
| 已结束 | 任务被取消或正常结束 | 用户主动停止或任务完成 |
| 失败 | 任务执行异常 | 训练失败等 |
- 关键字段说明
| 字段名称 | 适用类型 | 说明 |
|---|---|---|
| 名称/ID | 全部 | 支持按名称和ID进行精确筛选 |
| 优先级 | 全部 | 展示任务提交时设定的优先级(高/中/低) |
| 实例ID | 在线服务 | 在线服务可能包含多实例,此处展示具体实例ID |
| 资源规格 | 全部 | 展示GPU卡数、CPU核数、内存大小 |
| 利用率 | 全部 | 卡算力平均利用率 & 卡显存平均利用率 |
| 运行时长 | 全部 | 任务实际运行的时间跨度 |
-
资源利用率数据说明
- 数据范围: 平台默认存储并展示最近15天的资源利用率数据。
-
计算逻辑:
- 运行中任务: 从启动时间到当前时刻的平均值。
- 已结束任务: 从启动时间到结束时间的平均值。
- 历史数据: 若需查询超过15天的历史利用率数据,需联系管理员前往 Cprom 调整监控数据存储时长。
成员与权限管理

在“成员管理”Tab页中,您可以配置队列的访问控制列表,将平台用户添加至当前队列,并分配相应的角色权限。为了确保权限配置生效,您需要在 IAM(身份与访问管理) 中为相关用户绑定 AIHCDevelopPolicy 策略。
注意:IAM 权限策略的更新通常需要 3-5 分钟 的同步时间才能在平台中生效。
队列支持两种核心角色,权限粒度如下表所示:
| 角色名称 | 权限范围 | 限制说明 |
|---|---|---|
| 队列管理员 | 拥有该队列的最高管理权限。包括:编辑队列调度策略、配置资源规格模板、查看队列全量监控信息、管理队列成员等。 | 无平台级资源管理权。无法创建或删除队列,也无法修改队列的底层物理配额。 |
| 队列内开发成员 | 拥有在该队列中进行AI开发工作的基础权限。包括:创建开发机环境、提交分布式训练任务、部署推理服务等。 | 无管理权。仅能操作属于自己的任务负载,无法操作使用其他用户的负载(共享任务除外)。 |
队列监控

队列监控面板提供实时与历史维度的资源使用数据,帮助您掌握队列运行状态、识别资源瓶颈、优化任务调度策略。
-
节点使用情况(实时数据)
- 总节点数:当前队列中包含的物理节点总数。
- 不可用节点数:因故障、维护或被封锁而不可调度的节点数量。该数值直接影响队列最大可用资源上限。
-
加速卡概览(实时数据)
- 总卡数:队列内所有节点上加速卡(如GPU)的物理总数。
- 分配量:当前已被任务占用的加速卡数量(含部分分配),反映资源实际使用压力。
- 不可用卡数:因节点故障或硬件异常导致无法使用的加速卡数量。
-
资源利用率(所选时间段内平均值)
- 加速卡利用率:加速卡计算核心的平均使用率,反映算力负载水平。
- 显存利用率:加速卡显存的平均占用比例,用于评估内存密集型任务的资源压力。
- CPU利用率:节点CPU核心的平均使用率,辅助判断计算瓶颈是否在CPU侧。
- 内存利用率:节点系统内存的平均占用比例,用于评估任务内存需求与节点容量匹配度。
-
卡分配趋势
- 卡分配量:随时间变化的加速卡分配数量趋势图,支持识别资源使用高峰与低谷。
- 卡分配率:已分配卡数占总卡数的比例趋势,反映资源饱和度变化。
-
卡算力与显存利用率趋势
- 卡算力利用率:加速卡计算核心的利用率随时间变化曲线,用于分析任务资源使用波动。
- 卡显存平均利用率:加速卡显存占用比例随时间变化曲线,辅助识别显存泄漏或过度分配问题。
-
空闲节点统计
- 空闲整卡节点分布实时统计:按空闲卡数(0卡至8卡)统计当前完全空闲的节点数量,用于评估可调度资源碎片化程度。
- 空闲整卡节点分布趋势:随时间变化的空闲节点分布趋势,帮助预测资源释放节奏与调度窗口。
队列高级配置策略
在“队列配置”Tab页中,支持对任务优先级和资源回收策略进行精细化管控。

优先级规则配置
支持对任务优先级进行灵活配置,以管控不同用户的提交权限,确保高优任务优先获得资源。
详情参考AIHC 优先级配置参考文档
自动停止策略
支持基于GPU利用率、训练时长等指标灵活配置停止条件,有效节省资源成本。
- 利用率阈值:例如,当GPU利用率低于10%时触发。
- 持续时间:例如,持续满足低利用率状态超过2小时。
- 历史记录:支持查看策略触发的历史记录。
详情参考 AIHC 分布式训练自动停止策略文档
评价此篇文章
