介绍
更新时间:2025-09-09
产品介绍
百度百舸·AI计算平台(AI Heterogeneous Compute,简称AIHC)是面向大规模深度学习的高性能云原生AI计算平台,为模型算法专家和运维专家提供全面的集群运维支持和任务全生命周期管理,同时具备训练/推理加速、故障容错、智能故障诊断等高级功能,万卡单任务有效训练时长可达98%以上,大幅提升算力使用效率,助力企业在大模型时代的业务转型。
产品架构
百度百舸AI计算平台的产品架构图如下所示:
百度百舸·AI计算平台包括了AI基础设施、AI资源管理、AI工程和模型加速能力。
AI基础设施
百舸AI基础设施层作为平台的基石,整合了高性能计算(昆仑芯/GPU)、高性能存储(PFS、BOS等)、高性能网络(大规模HPN、万卡级别的RDMA网络等),为上层应用提供了稳定、高效且可弹性扩展的硬件与系统支持。
AI资源管理
百舸AI资源管理层是实现算力高效利用的核心,用户可根据业务场景选择全托管或自运维资源池,通过弹性多级队列与智能负载调度技术,结合碎片治理和节点免运维等能力,灵活分配计算任务并最大化资源利用率。
AI工程
聚焦于AI开发的全生命周期管理,提供了从数据准备到AI资产(如数据集、模型、镜像)管理的完整工具链,为开发者构建了高效、规范的一站式机器学习环境。
模型加速能力
面向社区开源热门模型,百舸通过模型预置与训推加速提供开箱即用的产品能力,降低模型开发与部署成本。
- 80+热门模型预置,覆盖:大语言模型(LLM)、多模态模型、智驾模型(自动驾驶)、具身智能模型等。
- 训推加速效果:LLM训练加速20%+、多模态加速30%、智驾模型加速100%+。