CDN 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 数据库 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库 GaiaDB-X
CDN 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 数据库 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库 GaiaDB-X
CDN 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 数据库 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库 GaiaDB-X
CDN 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 数据库 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库 GaiaDB-X
CDN 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 数据库 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库 GaiaDB-X
CDN 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 数据库 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库 GaiaDB-X
CDN 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 数据库 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库 GaiaDB-X
CDN 对象存储 BOS 文件存储 CFS 云磁盘 CDS 存储网关BSG 边缘计算节点 BEC 数据流转平台CloudFlow 内容分发网络 CDN 海外CDN 动态加速 DRCDN 并行文件存储PFS 数据湖缓存加速工具RapidFS 数据库 云数据库 RDS 云数据库 Redis 云数据库 DocDB for MongoDB 云数据库 HBase 云数据库 GaiaDB 分布式数据库 GaiaDB-X
2GB 3GB 5GB 10GB 50GB 独享内存 128MB 256MB 512MB 1GB 2GB CPU 独享单核 独享单核 独享单核 独享单核 独享单核 IP地址 分布式IP资源池 / 独享IP 分布式IP资源池 / 独享IP 分布式IP资源池 / 独享IP 分布式IP资源池 / 独享IP 分布式IP资源池 / 独享IP 网络带宽 1Mbps独享 1Mbps独享 2Mbps独享 2Mbps
背景信息 大模型训练随着参数量和数据规模的增长,受限于单机GPU内存容量限制,通常会使用分布式训练框架进行训练。但是分布式训练中可能会遇到单点的节点故障、系统问题等其他难以预知的异常问题,造成训练任务的中断。 在实际训练过程中,通常会开启定期Checkpoint机制来保存和恢复进度,尽量降低训练中断带来的算力浪费,但Checkpoint本身的耗时与模型的大小成正比。