管理全托管资源池
更新时间:2026-03-16
概述
本文介绍如何查看全托管资源池详情、节点管理、资源观测,有助于您更为全面地了解全托管资源池的信息,并进行操作。
资源池详情
- 登录百舸AI计算平台AIHC控制台;
- 在左侧菜单栏选择全托管资源池,进入全托管资源池页面,点击要查看的资源池名称,进入并查看资源池详情。

- 对于在创建资源池中未绑定PFS的资源池,可在详情页面进行绑定

资源管理
节点管理
新建节点
- 进入资源池详情后,选择节点管理,点击新建节点。

- 在新建节点页面,根据实际需求完成相关参数配置。
| 配置项 | 必填/选填 | 配置说明 |
|---|---|---|
| 计费方式 | 必填 | 按需选择按量付费和包年包月 |
| 可用区 | 必填 | 购买节点所在的可用区,目前仅支持新建节点与当前资源池中存量节点同一可用区,如需添加其他可用区节点请新建资源池或释放所有节点后重新创建节点。 |
| 节点子网 | 必填 | 资源池创建的节点将从节点子网中分配 IP 地址。 |
| 节点规格 | 必填 | 选择要购买的百舸节点规格,不同规格对应不同的CPU、内存、算力,可参考表格中的信息选购。 |
| 节点数量 | 必填 | 本次购买的节点数量。 |

- 确认配置信息,然后单击下一步提交订单。创建成功后,您可以在资源池详情节点管理页面查看已创建的节点列表。
封锁节点
- 进入资源池详情后,选择节点管理,在节点列表中,找到要封锁的节点,并点击操作栏中的封锁设置按钮。

- 在封锁设置弹窗中,可按需对节点进行封锁和解除封锁操作。封锁节点后,节点处于不可调节状态,新状态的Pod将不会调节到该节点上。

释放节点
- 进入资源池详情后,选择节点管理,在节点列表中,找到要释放的节点,并点击操作栏中的释放按钮。目前仅支持释放按量付费和已到期的包年包月节点。
- 在释放弹窗中点击确认,即可完成节点释放操作。确认释放的节点会立即结束使用并不再计费。

云盘管理
进入资源池详情后,选择云盘管理,显示资源池内云盘情况。

云盘扩缩容
1.进入资源池详情后,选择云盘管理,点击操作栏中的扩缩容按钮。

2.在基本配置页面,根据实际需求完成云盘容量参数配置。
云盘最大容量100000GiB,最小扩容量20GiB,可以缩容至0GiB。

3.确认配置信息后,单击确认订单进入确认订单页面。

4.,确认信息后,勾选协议后,单击提交提交订单。操作成功后,您可以在云盘管理页面查看云盘容量。
全局配置
通用配置
资源使用配置
1.数据挂载配置
支持配置挂载数据集或直接挂载存储,确保计算节点能够快速访问所需数据。

2.CCR 镜像免密拉取

配置后,创建工作负载时无需手动输入 CCR(百度智能云容器镜像服务)的用户名密码。
- 自动创建访问凭据: 系统使用当前操作用户身份自动创建。
- 指定访问凭据: 使用指定用户的凭据,需确保该用户持续有效。

3.碎片治理
碎片治理功能专门用于解决分布式训练、小规模推理中出现的“非整机任务”导致的资源闲置问题。
- 注意事项: 仅支持含加速芯片(GPU等)的队列和节点。如果任务处于预调度失败、已达最低副本数或手动关闭了重调度,将无法进行治理。
(1)点击立即治理,开始对指定队列或节点进行碎片诊断并治理。


(2)针对已完成的诊断,点击“治理”,在弹窗中选择需要治理的工作负载,开启碎片治理。


(3)治理完成后,点击“详情”,查看碎片治理结果详情信息。

开发机配置
通过预设开发机策略,您可以精细化管理团队的研发成本:
- 配额限制: 可针对单个成员设置最大创建实例数,并限制 GPU、CPU、内存及云磁盘的规格上限。
-
成本控制:
- 低利用率关机: 自动关闭长时间低负载的实例。
- 闲时关机: 在非工作时间段自动释放资源。
- 网络与权限: 统一控制开发机是否开启公网访问,以及是否允许用户自行制作镜像。

PFS 存储配置
资源池支持挂载高性能并行文件存储(PFS):
- 实例管理: 实时监控 PFS 实例的已用量/总容量及存储利用率
- 自动挂载: 在此配置后,资源池内的新建节点将自动挂载关联的 PFS 实例,无需手动操作。

在线服务部署配置
针对推理场景,您可以全局控制在线服务部署公网访问的开关。开启后,部署的在线推理服务将具备公网接入能力;关闭则仅限内网通信,提升安全性。

评价此篇文章
