百度百舸AI异构算力管理解决方案

面向大规模深度学习的高性能云原生AI计算平台,提供更全面的算力集群运维支持和大模型训练生命周期管理,助力企业在大模型时代的业务转型。

  • 发展趋势
  • 产品架构
  • 方案优势
  • 客户案例
  • 相关产品

发展趋势

发展趋势

方案架构

方案架构

方案优势

  • 稳定性保障

    节点故障检测&处理
    自动二分通信测试,为隐式硬件故障诊断提效
    高效的故障检测工具
    自动二分通信测试,为隐式硬件故障诊断提效
    训练可观测
    训练可观测能力全面升级,业界首发性能监控
  • 性能优化

    高性能AI网络方案
    高性能网络架构 ,网络拓扑亲和调度
    FlashCKPT
    FlashCKPT 并行内存写入,快速完成checkpoint操作,提升整体有效训练时长
    多芯混训
    超大模型训练,存量集群扩容,存量集群利旧
    GPU虚拟化
    自研GPU虚拟化方案:算力1%、显存1GB

客户案例

中海油云赋智平台
上海交通大学
上海嘉定智算中心
某能源客户AI大模型平台

中海油云赋智平台

中海油联合百度智能云等多家合作伙伴构建的中海油云赋智平台是一个基于云计算、大数据、人工智能等技术构建的智慧能源服务平台。该平台致力于提供全方位的能源行业数字化解决方案,包括智能勘探、智能生产、智能物流、智能交易、智能运维等方面的服务。

客户收益

  • 提升GPU算力资源的使用效率,解决传统模式下GPU资源利用率低的问题
  • 作为统一AI异构算力平台,支持海油当前A100/V100GPU芯片,后续可协助海油进行信创建设
  • 为现有平台提供AI高级能力,提升平台训练推理效率
中海油云赋智平台

相关产品