概述
更新时间:2025-01-10
BOS Connector for Pytorch 是百度智能云 BOS 针对 AI 训练场景所提供的高性能数据读写工具。可为 PyTorch 训练任务提供高性能访问存储在 BOS 中的数据。其会自动优化 BOS 读取和列出请求,提升 PyTorch 训练时对 BOS 中数据的加载和 Checkpoint 读写性能。
BOS Connector for Pytorch 可以用来从 BOS 中读取用于随机数据访问模式的 BosMapDataset 数据集,也支持读取用于顺序数据访问模式的 BosIterableDataset 数据集。另外可使用该工具将 Checkpoint 数据直接保存到 BOS 中,而无需先保存到本地存储。
相比通过 bosfs 等挂载工具使用对象存储,BOS Connector for Pytorch 有以下优势:
维度 | bosfs 等挂载工具 | BOS Connector for Pytorch |
---|---|---|
性能 | 低,无针对性优化 | 高,对训练集数据加载和 checkpoint 数据的读写做特定优化 |
数据加载方式 | 需提前下载(预热)数据 | 支持流式加载 |
数据访问 | 需要转接,经过一遍 fs 转义 | 直接读写 BOS |
配置复杂度 | 较复杂 | 提供简单配置,开箱即用 |