云原生AI概述

更新时间：2024-06-13

云原生 AI 概述

云原生AI基于百度智能云容器引擎（CCE）支持 GPU 显存和算力的共享与隔离，同时集成PaddlePaddle、TensorFlow、Pytorch 等主流深度学习框架，通过对 AI 任务的编排、管理，提供低门槛、高效的深度学习训练服务，帮助企业客户提高 GPU 资源使用效率和提升 AI 训练速度，快速降本增效。

使用流程

第一步（必选）：新建 v1.18 或以上版本的集群，添加带有 GPU 设备的节点；

第二步（必选）：安装云原生AI组件，详情请见组件概述；

第三步（可选）：为 GPU 节点开启显存共享；

第四步（必选）：新建队列，指定资源配额和关联用户，详情请见新建队列；

第五步（必选）：新建任务，提交 AI 训练任务，详情请见新建任务。

GPU/NPU支持清单

目前包括但不限于以下GPU/NPU型号支持显存和算力的共享与隔离，您可以提交工单了解更多：

GPU/NPU卡型号
NVIDIA V100 16GB SXM2
NVIDIA V100 32GB SXM2
NVIDIA T4
NVIDIA A100 80GB SXM
NVIDIA A100 40GB SXM
NVIDIA A800 80GB
NVIDIA A30
NVIDIA A10
昆仑芯 R200

弹性伸缩

队列管理

百度智能云

容器引擎 CCE

容器引擎 CCE

云原生AI概述

云原生 AI 概述

使用流程

GPU/NPU支持清单