模型缓存加速配置

更新时间：2026-04-16

概述

功能简介

模型缓存加速服务是百舸·AI计算平台为优化模型加载效率而提供的核心功能。该服务利用计算节点的空闲内存构建缓存池，将公共BOS（Baidu Object Storage）路径中的模型文件预加载至本地内存。通过减少对远端存储的依赖，显著降低模型重复下载时间，从而大幅提升在线服务的部署、扩容及推理任务的启动速度。

核心价值
- 加速加载： 直接从内存读取模型，避免重复从BOS拉取，显著缩短冷启动时间。
- 节省带宽： 减少对外部存储的高频访问，降低网络流量消耗。
- 资源优化： 合理利用节点闲置内存资源，提升整体集群利用率。

权限与访问

访问入口

登录百度百舸·AI计算平台控制台 → 左侧导航栏选择 【全托管资源池】 → 选择目标 【资源池】 进入详情页 → 点击 【全局配置】 → 查看 【模型缓存服务配置】。

权限说明

仅 资源池管理员 或拥有 AIHCFullControlPolicy 权限的用户可进行相关配置操作。

模型缓存加速配置说明

模型缓存加速服务默认不开启，需管理员在资源池级别手动配置。参数配置说明如下：

参数名称	说明	注意事项
目标队列	选择需要开启缓存加速的计算队列。	需选择处于“可用”状态的队列。
单节点缓存内存	设置每个节点用于缓存的内存大小。	建议不超过节点总内存的20%，建议在100GiB左右，请根据模型大小评估。
目标节点数	选择参与缓存服务的节点数量。	不可超过该队列当前可用节点数。
缓存池总容量	缓存池总容量 = 设置的目标节点数 × 单节点缓存内存。实际生效容量取决于队列中当前可用的节点数量。	若部分节点故障或被移出，实际缓存容量将小于目标值，可能影响模型缓存效果。

注意： 缓存池所占内存被视为系统预留资源。例如，若节点最大可用内存为1000GiB，设置200GiB作为缓存，则用户可提交的工作负载内存上限将降为800GiB。

使用约束与注意事项

节点状态要求
- 仅 “可用” 状态的节点支持模型缓存加速。
- 自愈中、不可用、已封锁的节点不支持。
- 节点故障或重启后，缓存内容将清空，首次加载仍需从BOS读取。
配置限制
- 不可变性： 一旦配置生效，若保持原队列不变，不允许修改“单节点缓存内存”大小，以避免缓存池结构频繁重建。如需调整，需更换目标队列。
- 资源冲突： 若节点剩余内存不足以容纳设置的缓存大小（例如节点已有负载占用900GiB，试图设置200GiB缓存），缓存Worker将无法调度。
服务范围
- 缓存服务对部署在同资源池的所有在线服务生效。
- 仅对公共账号BOS路径生效，挂载其他类型存储或非公共账号BOS路径时加速不生效。
- 当缓存空间不足或服务不可用时，系统将自动降级为从BOS直接加载，不会阻塞服务部署。

服务状态流转与故障排查

模型缓存服务开启后，通常需要 5-10分钟 进行初始化。

状态定义

状态	说明	处理建议
可用	缓存服务正常运行，节点数满足预期。	正常使用。
部分可用	实际缓存节点数小于目标节点数。	检查队列中是否有节点被移出或发生故障，建议恢复节点。
未就绪	服务正在初始化或配置异常。	若长时间未就绪，请确认目标队列是否存在，或联系管理员。