产品优势
更新时间:2024-12-27
简单易用
百度百舸整合百度云完善的基础设施和AI异构集群能力,提供了全面智能的高性能云原生AI计算平台,所有功能均支持在百度智能云控制台页面操作,可以轻松在控制台完成从资源创建到大模型训练任务提交的全流程操作,通过使用集成预置部署模板和推理镜像,帮助企业分钟级、低成本完成推理服务部署。
性能强劲
百舸异构计算平台提供经过百度内部验证的AIAK加速能力,帮助您在异构计算场景下实现更快的性能,训练性能提升30%,推理性能提升60%,您可基于百度AI加速能力构建符合自身业务需求的训练任务,提升训练效率和效果。
稳定可靠
百舸内置集群容错能力,在长时间运行训练任务场景下,通过容错能力进行自动重启和重新调度,有效解决掉卡和任务hang问题,提升训练稳定性,保障训练任务不中断。集群级集合通信库BCCL,故障精准定位和慢节点发现,在大模型训练场景的可观测性、故障诊断、稳定性等方面进行优化,保障不因集群故障浪费时间。大规模快速重调度和任务初始化,支持万卡任务分钟级恢复时长。
智能高效
百舸平台提供全面智能的大模型训练推理业务生命周期管理,不仅可以快速搭建大规模训练集群,在训练过程中能够大幅缩短运行时间,腾出更多卡时,同时也提供了强大的日志智能管理能力、节点智能检测能力、监控大盘展示,更集成了Tensorboard功能,帮助您高效发现和解决任务和资源层面的问题,提高训练效果。