介绍
更新时间:2024-05-13
产品介绍
百度百舸异构计算平台(AI Heterogeneous Compute,简称AIHC)是面向大规模深度学习的高性能云原生AI计算平台,为模型算法专家和运维专家提供全面的集群运维支持和任务全生命周期管理,同时具备训练/推理加速、故障容错、智能故障诊断等高级功能,有效训练时长可达98%以上,大幅提升算力使用效率,助力企业在大模型时代的业务转型。
产品架构
百度百舸异构计算平台的产品架构图如下所示:
百度百舸异构计算平台包括了百舸资源池、百舸组件和专为大模型场景优化的训推加速镜像和IO优化解决方案
百舸资源池
基于百度容器云平台CCE,百舸资源池将高性能AI基础设施统一管理,助力用户高效运维。
- 计算方面,百舸支持了A800&H800高性能GPU,同时也可以支持昆仑、昇腾等国产异构算力。
- 存储方面,百舸可支持百度高性能分布式存储PFS,可以显著提升训练和推理过程中的IO吞吐能力
- 网络方面,百舸支持了万卡级别的RDMA网络,配合拓扑感知调度和高性能通信库BCCL可以有效降低网络延迟,提升带宽利用率。
百舸组件
组件百舸是面向AI训推场景的能力集合,用户可根据需求按需选择灵活插拔。
- AI基础组件提供了AI基础设施运行必须的高性能网络和存储驱动插件,同时提供了多种异构资源调度支持。
- AI编排调度提供了AI任务必须的深度学习框架,任务编排和工作流管理。
- 稳定性&容错组件提供了GPU、节点、集群、任务等多个维度的故障感知,支持设定任务设置自动容错机制,同时提供了通信库测试工具,用户集群健康检查。
- 可观测大盘提供了集群运维必须的资源视图、稳定性视图和性能视图,助力用户更好的执行资源治理,任务排障、调优等操作,并可与自己的AI中台融合接入。
百舸大模型增强
面向大模型对基础设施的新挑战,百舸提供了一系列的优化和加速工具
- 大模型训推加速镜像:针对典型开源大模型的模型结构,算子和显存特点,百舸提供了训推加速镜像,用户在执行训推任务时可快速引用,可大幅提升训推任务效率
- 大镜像优化:大模型的模型参数多,数据量大,实际业务中通常会有数百GB甚至TB级的镜像,百舸提供的大镜像预加载和P2P加速等能力,可以有效提升镜像加载速度,解决因镜像拉取过慢导致的训练失败等问题。
- Flash Checkpoint: Checkpoint是模型故障恢复的常规机制,由于大模型参数量大,每次checkpoint都会占用宝贵的训练时间,Flash Checkpoint功能可实现秒级checkpoint,有效降低训练等待时间。