百舸异构计算平台AIHC

百舸异构计算平台是面向大规模深度学习的高性能云原生AI计算平台,为模型算法专家和运维专家提供全面的集群运维支持和任务全生命周期管理,同时具备训练/推理加速、故障容错、智能故障诊断等高级功能,有效训练时长可达98%以上,大幅提升算力使用效率,助力企业在大模型时代的业务转型。

  • 产品优势
  • 产品架构
  • 产品功能
  • 应用场景
  • 直播活动与文章
  • 产品文档
  • 相关产品
  • 立即咨询

为什么选择百舸异构计算平台AIHC

简单、高效、稳定的一站式异构计算平台

性能强劲

百舸对用户提供AI加速套件,支持大模型训练和推理场景的IO预处理优化、通信效率优化、显存利用优化和模型算子优化,能极大提升分布式训练、推理的性能和效率。

简单易用

支持训练、推理端到端全流程表单化操作,内置可观测大盘、一键性能测试工具、可视化调参工具,让深度学习更简单、更易用。

稳定可靠

支持故障容错,节点故障自动隔离,训练作业故障自动恢复,有效训练时长达到98%以上。

智能高效

通过优化的基础设施方案,将环境搭建时间由天级别缩短至分钟级别,高效搭建一站式训练、推理基础设施平台。

产品架构总览,全方位了解AIHC

产品架构总览,全方位了解AIHC

全面展示,深入了解产品功能

  • 集群管理

    队列管理
    提供便捷易用的队列管理操作,您可以使用不同队列的资源处理不同业务的工作负载。
    节点管理
    提供全面的节点管理能力,帮助您更方便地管理节点。
    监控运维
    内置监控大盘,并预置了丰富的AI监控指标,为您提供最准确的资源监控数据,帮助您做出及时和准确的决策。
  • 训练管理

    任务提交
    帮助您更方便更快捷的提交任务,轻松创建您的AI模型的训练作业。
    任务可观测
    提供多维度的任务监控指标,一键查看任务监控大盘。
    可视化调参
    提供训练效果可视化工具和表单化调参功能,应对各环境业务。
  • 推理管理

    推理部署
    支持快速部署模型实例,并提供推理加速能力。
    在线测试
    对模型进行测试和评估,以验证其性能和准确性。
  • 一键诊断

    RDMA Test
    为RDMA网络提供带宽测试工具,以评估集群网络性能。
    NCCL Test
    提供基于NCCL通信库的性能测试,测试NCCL在不同设备之间进行通信时的性能和正确性。

应用场景全面覆盖,百舸助力业务成功

在线教育
在线教育
智能阅卷,写作指导,文档问答等场景中的开发、训练和推理
营销广告
营销广告
无人驾驶
无人驾驶
生物科技
生物科技

云智公开课

第一期
第二期
第三期
第四期
第一期

课程主题

云原生 AI 的资源调度和 AI 工作流引擎设计分享

课程时间

2022 年 12 月 8 日 16:00-17:00

直播亮点

了解单机单卡、多机多卡、多机多卡等场景下云原生 AI 的资源调度方法。

了解 AI 工作流引擎 PaddleFlow 打通底层资源和上层业务的架构和细节,提升 AI 工程效率。

文档与学习

相关产品

立即联系您的专属顾问

高性能低成本的异构计算平台,企业上云智能化创新最佳选择

立即咨询