RapidFS Master托管实例缓存加速
概述
百舸全托管资源池除支持 RapidFS 全托管实例外,也支持通过关联 RapidFS Master 托管实例,将计算节点上闲置的本地磁盘构建为高性能分布式缓存层,为 AI 训练、推理等场景提供低延迟的数据加速能力。
核心优势:
- 降低存储成本:盘活 GPU 节点闲置本地盘,减少对外部高性能存储(如 PFS)的依赖。
- 加速数据读取:在分布式训练场景中就近缓存热数据,大幅缩短数据读取时延。
- 运维简单:部署组与 Cache 节点由平台自动管理,用户无需手动配置。
- 数据安全:RapidFS 提供只读缓存,写操作直接落入 BOS 对象存储,节点故障时不影响数据可靠性。
加速范围说明:当前仅支持加速 BOS 对象存储中的数据。
前提条件
在开启缓存加速功能前,请确认以下条件已满足:
| 条件 | 说明 |
|---|---|
| 账号权限 | 需具备资源池管理员及以上权限才能进行全局配置操作 |
| RapidFS 权限 | 创建 RapidFS 实例需要账号已授予 RAPIDFSFullControlAccessPolicy 策略 |
| 本地磁盘要求 | 资源池中至少有节点拥有 2 块及以上物理磁盘(第一块系统盘不计入可用容量),推荐采用 SSD |
| 网络要求 | RapidFS 实例须与资源池处于同一地域/VPC |
注意:若资源池所有节点均无可用本地磁盘,将无法开启该功能。
名词解释
| 名词 | 说明 |
|---|---|
| RapidFS | 数据湖存储加速工具(Data Lake Accelerator),依靠 BOS 作为存储底座,为 AI/大数据业务加速存储访问性能 |
| Master 托管模式 | RapidFS 集群中 Master 节点由百度云平台托管,Cache 节点部署在用户自有计算节点上 |
| Master 节点 | 负责元数据维护、任务调度,为用户读写数据提供数据块定位信息 |
| Cache 节点 | 负责缓存热数据,执行数据存储与计算任务,数量可线性扩展 |
| 部署组 | 具有相同磁盘配置(磁盘数量 × 磁盘容量)的 Cache 节点集合,由平台自动划分管理 |
| M1 规格 | RapidFS Master 小规格,最多托管 50 个节点 |
| M2 规格 | RapidFS Master 大规格,最多托管 400 个节点 |
使用流程

功能操作概要说明:
- 在 RapidFS 控制台创建 Master 托管实例,导入数据源并配置数据流转
- 在百舸资源池全局配置中开启缓存加速并关联 RapidFS 实例,平台自动完成部署组和 Cache 节点的初始化
- 在百舸控制台开发机或分布式训练任务中挂载 RapidFS 数据集或者相关存储使用
RapidFS控制台相关功能
相关功能简介:
- 创建 RapidFS Master 托管实例,前提条件是:必须已有百舸全托管资源池。也可从百舸全托管资源池的全局配置中跳转到RapidFS控制台进行创建。
- 进行数据源管理:导入数据源&权限组的管理
- 在实际使用中按需进行数据流转的管理
RapidFS 实例要求:
- 实例接入类型必须选择 百舸全托管资源池,且关联某一个百舸全托管资源池。
- 与资源池处于同一地域/VPC
操作步骤:
- 进入 RapidFS 控制台,点击创建实例,部署模式选择【Master托管】模式。
- 在实例创建页面,接入类型选择百舸全托管资源池,从下拉列表选择您的资源池。
- 根据资源池节点规模和文件数规模选择 Master 规格,不同Master规格的区别请参考RapidFS控制台说明。
- VPC、子网等网络参数由系统自动填充。
- 提交创建,等待约 3 分钟实例创建完成。
- 创建缓存实例后,需要导入数据源,将对象存储(BOS)的存储桶或存储桶目录以数据源的形式导入缓存实例,以实现加速访问。数据源管理的详细操作说明见RapidFS数据源文档。
- 用户在百舸控制台使用RapidFS存储或数据集时,可以进一步配置数据流转策略和任务,优化缓存加速效果,详细操作说明见数据流转操作。
Master 规格选择建议:若未来有节点扩容计划,或预期加速的 BOS 中文件数规模较大,建议直接选择M2规格,避免后续因规格限制影响扩展。

全托管资源池开启缓存加速配置
-
进入全局配置
- 在百舸控制台,进入目标全托管资源池详情页。
- 点击顶部导航栏中的全局配置选项卡,选择存储配置子标签页。

-
开启 Master 托管缓存加速
- 在 RapidFS 缓存加速配置区域,找到 Master 托管部署模式行。
- 默认状态为未开启,点击开启按钮。
- 系统弹出配置框,按以下说明填写参数。
- 配置参数说明:只能选择关联**了本资源池的RapidFS Master实例。**
| 项目 | 说明 |
|---|---|
| RapidFS 实例 | 从下拉列表选择处于运行中状态的实例;创建中/创建失败的实例不可选 |
| 新建实例 | 若无可用实例,点击创建 RapidFS 实例跳转新页面创建(自动携带资源池参数) |
| 刷新列表 | 若新建实例后未显示,点击刷新图标更新列表 |

-
确认并完成关联
- 确认参数无误后,点击确定。
- 配置完成后,存储配置页面将展示已关联实例的基本信息。请注意,总容量数据的显示存在约1至3分钟的延迟。

开发机和训练任务使用 RapidFS
缓存加速开启后,您可以在开发机和分布式训练任务中使用 RapidFS 进行数据加速。
方式一:存储挂载
- 创建开发机或训练任务时,在存储挂载配置中,存储类型选择数据湖存储加速工具 RapidFS。
-
在实例列表中,您将看到:
- 账号下所有全托管 RapidFS 实例
- 以及已关联到当前资源池的Master托管 RapidFS 实例
- 选择对应的 RapidFS 实例,选择数据源,填写挂载路径,提交任务。
方式二:数据集挂载(推荐,支持权限隔离)
推荐使用此方式实现数据集级别的权限隔离,适用于多子用户共享资源池的场景。
前提:需由具有 AssetFullControlPolicy 权限的用户先在 百舸控制台创建数据集并指定读/写权限,数据集相关文档请参考数据集文档。
操作步骤:
- 用户在百舸控制台/AI资产管理/数据集/ 创建数据集,并指定使用者(子账号)对数据集的读/写权限。
- 开发人员在百舸数据集列表中,可以看到已被授权的 RapidFS存储类型的数据集。
- 创建开发机或训练任务时,在数据集挂载配置中选择对应的 RapidFS存储类型数据集。
- 填写挂载路径,提交任务。

RapidFS 缓存加速进阶使用说明
基于 RapidFS 数据湖存储加速工具,可以在 BOS(对象存储)之上构建近计算的存储加速层,大幅提升 AI 训练、推理以及数据处理的存储访问性能。既可以选择由百度云平台完全托管的形态,也可以选择上述性价比更高的 Master 托管形态,从而将计算节点的空闲磁盘资源利用起来。
无论选择哪种形态,创建好 RapidFS 实例后,均需先将 BOS 存储桶或其特定目录导入为一个“数据源”,在百舸上实际是对该“数据源”进行挂载访问。此后可根据业务场景特点,进行数据流转的进阶配置,以实现更优的加速效果。详细说明请参考 RapidFS官方文档。
- 配置元数据同步:如果增量数据会通过 RapidFS 以外的方式直接上传或修改至 BOS,需要配置元数据同步规则,以将 BOS 中的增量变化同步至 RapidFS 使其可被访问。
- 配置缓存预热:为避免冷启动带来的首次访问性能损失,您可以创建“缓存预热规则”,将数据源中指定目录(及其后代目录)下的热点数据,提前预热加载至缓存实例。
- 配置更多自定义策略:除缓存预热外,还可对缓存淘汰、目录级策略等进行更多自定义配置,以适应不同的业务需求。
权限说明
| 操作 | 所需权限 |
|---|---|
| 开启/配置缓存加速(全局配置) | 资源池管理员及以上 |
| 创建 RapidFS 实例 | 账号需授予 RAPIDFSFullControlAccessPolicy 策略 |
| 创建 RapidFS 数据集(权限隔离) | 账号需授予 AssetFullControlPolicy 策略 |
| 在任务中挂载 RapidFS 数据集 | 数据集已被管理员授权给当前用户 |
计费说明
| 费用项 | 说明 |
|---|---|
| 百舸侧 | 不额外收费,本地磁盘硬件费用已包含在计算节点购买费用中 |
| RapidFS 侧 | 按缓存加速容量计费,另收取 Master 托管节点费用,均为按量付费 |
| 账单查看 | 费用计入 RapidFS 产品账单,请前往 RapidFS 控制台查看 |
详细计费说明请参考 RapidFS 官方计费文档。
常见问题
Q:为什么开启按钮是灰色的/提示无法开启?
A:可能原因是资源池内所有节点均只有一块磁盘(系统盘)或者没有磁盘,没有可用于缓存的额外本地磁盘。
Q:缓存加速总容量与 RapidFS 控制台显示的容量不一致?
A:百舸侧展示的是预估容量(基于 节点套餐规格计算,不含折损率),实际可用容量以 RapidFS 控制台"已用量/总容量"为准,两者存在一定差异属正常现象。
Q:选择 M1 规格后,节点数超过 50 怎么办?
A:M1 规格实例最多托管 50 个节点,超出后平台将停止自动扩容。建议在资源池节点数可能超过 50 时,提前在 RapidFS 控制台选择 M2 规格实例。当前版本暂不支持实例解绑和规格变更,该能力将在后续版本支持。
Q:新购或释放节点后,缓存容量会自动更新吗?
A:会的。节点新购、释放、故障等情况下,平台会自动更新 RapidFS 实例的总容量、部署组容量及 Cache 节点列表,无需手动操作。
Q:能否同时关联多个 RapidFS 实例?
A:当前仅支持资源池与 RapidFS 实例 1:1 关联。
相关文档
评价此篇文章
