应用场景
更新时间:2023-09-19
场景1:大数据计算场景
传统的大数据场景下,一般都使用基于 HDFS 的存算一体架构。当该架构迁移到云端时候,会遇到如下问题:
-
成本和运维复杂度难以兼顾:
- 基于云盘搭建 HDFS 实际副本数为 3*3 = 9,成本较高;
- 要节省成本需要本地盘搭建,运维复杂度相比线下 IDC 无降低;
-
存储计算资源耦合,无法单独扩展:
- 很容易导致其中一种资源利用率低;
- 在需要更强算力的时候,弹性不足;
在云端使用大数据服务时,单独基于对象存储 BOS 可以解决高成本、低扩展性的问题,但简单地基于对象存储模拟文件系统操作仍存在以下问题:
- 使用平坦目录模拟层级目录时冗余操作很多,导致元数据性能差;
- 数据面访问延时比 HDFS 高一个数量级,对象存储限速机制的存在进一步限制了性能的发挥;
- 和 Hadoop 的兼容性一般,部分场景需要特殊处理,例如 rename 不支持原子性;
在此时,可以选择基于对象存储 BOS 和 数据湖存储加速工具 RapidFS 的存算分离架构,加速大数据计算节点对存储资源的访问速度,同时构建低成本的存储系统。
场景2:AI训练场景
AI 场景对存储有以下要求:
- POSIX 兼容性是强需:科学家、算法工程师更熟悉 POSIX 接口,POSIX 接口对主流框架、各类软件的支持也最好;
- 训练时的性能不拖后腿:最大程度提高 GPU 利用率是最关键的问题之一,这其中 List 和读 IO 性能最重要;
- 和调度器无缝整合:数据流转最好做到自动化,屏蔽底层存储的细节,降低用户的使用成本;
上述要求在传统的对象存储方案下不能满足得很好:
- 平坦目录模拟 POSIX 兼容性和性能都较差,这和大数据存算分离场景面临的问题是一致的;
- 对象存储能够满足大吞吐的 AI 训练性能需求,但 AI 训练中海量小文件的场景很常见,直接基于对象存储读延时不理想;
- 对象存储的 FUSE 和 CSI 插件只能满足轻量的使用,和调度器没有打通,很多数据流转的细节仍需要客户关注;
在此时,可以选择基于对象存储 BOS 和 数据湖存储加速工具 RapidFS 的存算分离架构,加速 HPC 场景下的 AI 训练,提升存储资源的访问效率,并构建起低成本的存储系统。