资源规格模板
概述
资源规格模板是 AIHC 百舸平台为队列管理提供的标准化资源配置能力。管理员可在队列维度预设 GPU 数量与 CPU 数量、内存的搭配规格,算法工程师在创建任务时可直接套用模板,无需手动填写资源参数,从而降低配置门槛、减少资源碎片化,提升集群整体利用率。
功能概述
- 模板配置:管理员可为队列预设多组资源规格模板,覆盖分布式训练、开发机、在线服务部署等负载场景。
- 自动创建:新增含 GPU 的队列时,系统自动按节点最大规格生成常用卡数模板,无需手动配置。
- 两种使用模式:支持自由创建模式(参考套用)和严格规定模式(强制选择),管理员可按需配置。
- 任务创建集成:算法工程师创建任务时可通过模板一键回填资源参数,严格规定模式下只能从预设模板中选择。
- 复制/重跑兼容:严格规定模式下,复制或重跑任务时自动匹配原规格对应的模板,若无匹配则提示重新选择。
- 权限分级管理:平台管理员、资源池管理员、队列管理员按权限范围管理模板,算法工程师只读查看。
使用前提
- 已在 AIHC 百舸平台创建自运维资源池或全托管资源池,并完成队列配置。
- 需要配置或管理模板的操作者具备相应管理员权限(平台管理员 / 资源池管理员 / 队列管理员)。
- 算法工程师在创建任务时,目标队列已配置资源规格模板。
配置资源规格模板(管理员)
进入模板配置页面
全托管资源池:
- 进入全托管资源池管理页面,选择资源队列。
- 在资源队列列表中,点击目标队列,进入后点击队列配置,进入模板配置页面,开启即可配置模板。

系统自动创建模板
新增含 GPU 的队列并开启资源规格模板配置时,系统将根据队列内节点的最大 GPU 规格,自动生成常用卡数的资源模板:
- 自动创建卡数覆盖:1 卡、2 卡、4 卡、…,直至节点最大卡数。
-
CPU 与内存按节点最大规格等比分配。
- 请注意:节点中最大可用内存与 CPU 数量会根据安装插件动态变化,自动创建的模板规格仅为创建时刻的参照值,请管理员根据变化变更模板配置。
示例: 队列内节点为 A800 × 8 卡,系统自动创建 1/2/4/8 卡四个规格模板。
队列显卡变更时,系统将自动删除原 GPU 类型对应的模板,并按新显卡规格自动创建对应模板。

编辑模板
- 在模板配置页面点击编辑,即可进入模板编辑弹窗。
- 按下表填写各字段:
| 字段 | 说明 | 是否必填 |
|---|---|---|
| 模板名称 | 自定义名称,同队列内不可重复 | 是 |
| GPU 类型(芯片型号) | 选择该模板对应的显卡型号;GPU 数量大于 0 时必填 | 条件必填 |
| 卡数 | 单任务使用的 GPU 数量,需大于 0 | 是 |
| CPU(核) | 分配给任务的 CPU 核数 | 是 |
| 内存 | 分配给任务的内存大小(单位:GiB) | 是 |
| 适用模块 | 勾选适用的负载类型:分布式训练 / 开发机 / 在线服务部署,可多选 | 是 |
- 填写完成后点击保存。
校验规则:
| 规则 | 说明 |
|---|---|
| 不可重复 | 同队列内,GPU 类型 + 卡数 + CPU + 内存的组合不可与已有模板重复 |
| 名称唯一 | 同队列内,模板名称不可重复 |
| GPU 类型必填 | 当卡数 > 0 时,必须选择 GPU 类型(芯片型号) |
| 必填项不可为空 | 模板名称、卡数、CPU、内存、适用模块均为必填项 |
复制模板
在模板列表中,点击目标模板行右侧的复制按钮,系统将自动创建一条与该模板规格相同的新模板行。修改所需字段后保存即可。
删除模板
在模板列表中,点击目标模板行右侧的删除按钮,确认后该模板将被移除。已被任务引用的历史规格不受影响。
配置模板管理模式(管理员)
管理员可在模板配置页面设置该队列(或负载类型)的模板使用模式:
| 模式 | 说明 |
|---|---|
| 自由创建模式(默认) | 开启资源模板配置时默认为该模式,算法工程师创建任务时,资源填写区提供资源模板入口供参考套用,也可自行填写资源参数 |
| 严格规定模式 | 若该负载类型已配置模板,算法工程师只能从预设模板列表中选择,不可自定义填写;若某负载类型未配置任何模板,仍允许自定义填写 |
建议在对资源利用率要求较高或集群碎片化严重的场景下,启用严格规定模式。
创建任务时使用模板(算法工程师)
自由创建模式
- 在创建任务页面,进入资源配置区域。
- 点击资源模板入口,弹出当前队列下适用于该负载类型的模板列表。
- 选择目标模板,系统自动回填 GPU 类型、GPU 数、CPU 核数、内存。
- 回填后可根据需要手动调整,也可直接提交。
若所选模板的 GPU 类型在当前队列中不存在,系统将提示并禁止提交,请更换其他模板或联系管理员。
严格规定模式
- 在创建任务页面,资源配置区域仅支持通过点击资源模板填写资源规格。
- 从列表中选择适合的资源规格模板,系统自动填充对应资源参数。
- 不支持手动修改资源参数,直接提交任务即可。
若该负载类型当前队列下暂无可选模板,系统将切换为自定义填写模式,允许手动输入资源参数。
复制/重跑任务的模板匹配(严格规定模式)
在严格规定模式下,复制或重跑已有任务时,系统将按以下规则处理资源规格:
| 场景 | 系统行为 |
|---|---|
| 找到完全匹配的模板(GPU 类型 / GPU 数 / CPU / 内存均一致) | 自动选中对应模板,无需手动选择 |
| 未找到匹配模板,但该负载仍有可选模板 | 资源规格置空,并提示:"当前队列已不支持原资源规格,请重新选择,原规格为 GPU×x,CPU×x,内存×xG" |
| 该负载类型当前队列下已无任何可选模板 | 切换为自定义填写模式,原规格自动填入,允许手动调整后提交 |
权限说明
| 角色 | 权限范围 |
|---|---|
| 平台管理员 | 可访问并修改所有资源池、所有队列的资源规格模板 |
| 资源池管理员 | 可访问并修改所管理资源池内所有队列的资源规格模板 |
| 队列管理员 | 可修改自己管理队列的资源规格模板 |
| 算法工程师 | 只读查看,不可修改(操作按钮隐藏) |
常见问题
Q:新建队列后,系统没有自动生成模板,怎么办?
A:系统仅在队列包含 GPU 节点时自动创建模板。若队列为纯 CPU 队列,或节点资源尚未关联到队列,不会触发自动创建。请确认队列已正确关联 GPU 节点后,再手动添加模板,或联系平台管理员处理。
Q:严格规定模式下,算法工程师反馈没有合适的模板可选,怎么解决?
A:管理员可在模板配置页面为该队列和对应负载类型补充合适的规格模板。若某负载类型暂未配置任何模板,系统将自动允许自定义填写,不影响任务创建。
Q:更换队列显卡后,原有任务的历史记录是否受影响?
A:队列显卡变更仅影响模板列表的自动维护(删除旧模板、创建新模板)。已提交的历史任务及其资源记录不受影响。
Q:复制任务时提示"当前队列已不支持原资源规格",如何处理?
A:此提示表示原任务所用资源规格在当前队列已无对应模板。请从现有资源规格模板中重新选择一个可用的资源规格模板后再提交。若有特殊需求,可联系队列管理员添加所需规格模板。
Q:资源规格模板适用于哪些资源池类型?
A:资源规格模板功能适用于自运维资源池下的物理队列,以及全托管资源池下的队列。
评价此篇文章
