数据湖存储加速工具RapidFS

RapidFS 是一款近计算存储加速工具。依托对象存储 BOS 作为数据湖存储底座,构建容量与性能解耦、冷热分层、透明流转的高性能存储方案。以 POSIX 挂载和 HDFS 协议,为上层计算应用提供统一文件访问入口,加速 AI 训练与推理、海量数据处理与分析、数据分发等业务场景下的存储访问。

  • 产品概述
  • 产品功能
  • 场景方案
  • 文档与工具
  • 相关产品

快速入门

产品实践

产品概述

RapidFS 是一款近计算存储加速工具。依托对象存储 BOS 作为数据湖存储底座,构建容量与性能解耦、冷热分层、透明流转的高性能存储方案。以 POSIX 挂载和 HDFS 协议,为上层计算应用提供统一文件访问入口,加速 AI 训练与推理、海量数据处理与分析、数据分发等业务场景下的存储访问。

产品概述

产品功能特点

  • 数据透明流转

    支持与对象存储 BOS 的双向透明数据流转。通过与计算匹配的预热、淘汰和持久化策略,简化冷热分层,提升加速效果。

  • 超大规模,极致性能

    多种性能基线,规模线性扩展,满足数百 GBps 吞吐、亚毫秒级时延需求,让计算永不停歇。

  • 业务无缝接入

    提供 POSIX 挂载、HCFS SDK 等多种访问形式,兼容 K8s 和各类计算生态,实现已有业务无缝接入。

场景方案

AI 训练
推理模型分发
数据处理与分析
AI 训练

场景特点

AI 训练场景下,需要快速读取数据集并缩短 Checkpoint 保存和加载对训练的阻塞,从而提高 GPU 利用率。

RapidFS 通过极致的读写性能、灵活透明的数据流转,加速数据湖之上的 AI 训练。

我们能提供

数据集读加速

通过将训练所需的对象存储数据预热加载至缓存,提供与 GPU 匹配的数百 GBps 吞吐和亚毫秒级读取时延。

Checkpoint 保存加速

内置并行写和异步写等持久化策略,大幅节省 Checkpoint 保存耗时,减少 GPU 闲置等待时间。

数据流转

在数据集容量越来越大的背景下,RapidFS 提供与计算匹配的预热和淘汰策略,实现与对象存储间的数据冷热分层和透明流转,降低整体存储成本。

文档与工具

相关产品