模型缓存加速配置
更新时间:2026-04-16
概述
- 功能简介
模型缓存加速服务是百舸·AI计算平台为优化模型加载效率而提供的核心功能。该服务利用计算节点的空闲内存构建缓存池,将公共BOS(Baidu Object Storage)路径中的模型文件预加载至本地内存。通过减少对远端存储的依赖,显著降低模型重复下载时间,从而大幅提升在线服务的部署、扩容及推理任务的启动速度。
-
核心价值
- 加速加载: 直接从内存读取模型,避免重复从BOS拉取,显著缩短冷启动时间。
- 节省带宽: 减少对外部存储的高频访问,降低网络流量消耗。
- 资源优化: 合理利用节点闲置内存资源,提升整体集群利用率。
权限与访问
- 访问入口
登录百度百舸·AI计算平台控制台 → 左侧导航栏选择 【全托管资源池】 → 选择目标 【资源池】 进入详情页 → 点击 【全局配置】 → 查看 【模型缓存服务配置】。
- 权限说明
仅 资源池管理员 或拥有 AIHCFullControlPolicy 权限的用户可进行相关配置操作。

模型缓存加速配置说明

模型缓存加速服务默认不开启,需管理员在资源池级别手动配置。参数配置说明如下:
| 参数名称 | 说明 | 注意事项 |
|---|---|---|
| 目标队列 | 选择需要开启缓存加速的计算队列。 | 需选择处于“可用”状态的队列。 |
| 单节点缓存内存 | 设置每个节点用于缓存的内存大小。 | 建议不超过节点总内存的20%,建议在100GiB左右,请根据模型大小评估。 |
| 目标节点数 | 选择参与缓存服务的节点数量。 | 不可超过该队列当前可用节点数。 |
| 缓存池总容量 | 缓存池总容量 = 设置的目标节点数 × 单节点缓存内存。实际生效容量取决于队列中当前可用的节点数量。 | 若部分节点故障或被移出,实际缓存容量将小于目标值,可能影响模型缓存效果。 |
注意: 缓存池所占内存被视为系统预留资源。例如,若节点最大可用内存为1000GiB,设置200GiB作为缓存,则用户可提交的工作负载内存上限将降为800GiB。
使用约束与注意事项
-
节点状态要求
- 仅 “可用” 状态的节点支持模型缓存加速。
- 自愈中、不可用、已封锁的节点不支持。
- 节点故障或重启后,缓存内容将清空,首次加载仍需从BOS读取。
-
配置限制
- 不可变性: 一旦配置生效,若保持原队列不变,不允许修改“单节点缓存内存”大小,以避免缓存池结构频繁重建。如需调整,需更换目标队列。
- 资源冲突: 若节点剩余内存不足以容纳设置的缓存大小(例如节点已有负载占用900GiB,试图设置200GiB缓存),缓存Worker将无法调度。
-
服务范围
- 缓存服务对部署在同资源池的所有在线服务生效。
- 仅对公共账号BOS路径生效,挂载其他类型存储或非公共账号BOS路径时加速不生效。
- 当缓存空间不足或服务不可用时,系统将自动降级为从BOS直接加载,不会阻塞服务部署。
服务状态流转与故障排查
模型缓存服务开启后,通常需要 5-10分钟 进行初始化。
状态定义
| 状态 | 说明 | 处理建议 |
|---|---|---|
| 可用 | 缓存服务正常运行,节点数满足预期。 | 正常使用。 |
| 部分可用 | 实际缓存节点数小于目标节点数。 | 检查队列中是否有节点被移出或发生故障,建议恢复节点。 |
| 未就绪 | 服务正在初始化或配置异常。 | 若长时间未就绪,请确认目标队列是否存在,或联系管理员。 |
若服务长时间处于“未就绪”或转为“部分可用”,请按以下步骤检查:
- 确认队列状态: 目标队列是否已被删除或修改。
-
检查节点健康度: 目标队列中的可用节点数是否达到配置要求。
- 如有故障节点,请等待自动恢复或手动干预。
- 如有被移出节点,请重新加入队列。
在线服务部署的使用说明
开启此功能后,系统将利用计算节点的内存资源构建高速缓存。当您使用公共模型进行部署时,模型文件将直接从节点内存加载,而非从远端存储下载。
适用条件:
- 模型类型: 仅限公共模型(存储于公共账号BOS路径)。
- 资源环境: 所选的计算队列所在的资源池必须已开启模型缓存加速服务。


评价此篇文章
