云原生AI

云原生AI基于百度智能云容器引擎（CCE）支持GPU显存和算力的共享与隔离，同时集成多种主流深度学习框架，通过对AI任务的编排、管理，提供深度学习训练服务，帮助企业客户提高GPU资源使用效率和提升AI训练速度，快速降本增效。

公测申请产品文档

能力全景图
方案优势
最佳实践
联系我们

云原生AI能力全景图

云原生AI在资源弹性、跨节点架构感知，训练推理效率等多方面的能力显著提升，可最大化地帮助企业实现AI应用的快速交付与落地。

解决方案优势

双引擎虚拟化

提供了用户态和内核态双引擎：用户态性能最优，内核态隔离性强。用户可以根据自己的需求灵活选择。

AI调度

调度支持共享混部、独立调度，用户可根据需求灵活选择；支持拓扑感知以及亲和调度。

AIAK-Training 分布式训练加速

通过通信加速和算子融合等技术，提升分布式训练的性能，在典型模型场景下吞吐提升50%以上。

推理加速

通过图优化跟算子融合等技术，提升推理的性能，在典型模型场景下时延降低50%。

数据加速

支持Fluid Operator与PFS/RapidFS等，能实现分布式缓存引擎加速与协同调度，训练效果提升5倍以上。

大规模训练最佳实践

大模型训练实践

支持数千卡分布式训练，为其提供高效稳定的训练环境。大规模训练资源效能提升：等效算力50%+、数据并行加速比90%+。

我们能提供

高性能基础设施适配

支持RDMA容器网络，单机可达1.6Tbps

支持高性能容器存储，可实现百万IOPS、百GB吞吐

高效调度

节点间tor交换机架构感知

通信、框架、调度高效协同

容错（节点故障时框架感知并要求调度器重分配）

端到端自动并行

支持自研通信库ECCL

兼容英伟达、昆仑等多家芯片

立即申请公测

提高资源使用效率，提升AI训练速度，快速降本增效

申请入口