云原生AI概述
更新时间:2024-06-13
云原生 AI 概述
云原生AI基于百度智能云容器引擎(CCE)支持 GPU 显存和算力的共享与隔离,同时集成PaddlePaddle、TensorFlow、Pytorch 等主流深度学习框架,通过对 AI 任务的编排、管理,提供低门槛、高效的深度学习训练服务,帮助企业客户提高 GPU 资源使用效率和提升 AI 训练速度,快速降本增效。
使用流程
第一步(必选):新建 v1.18 或以上版本的集群,添加带有 GPU 设备的节点;
第二步(必选):安装云原生AI组件,详情请见组件概述;
第三步(可选):为 GPU 节点开启显存共享;
第四步(必选):新建队列,指定资源配额和关联用户,详情请见新建队列;
第五步(必选):新建任务,提交 AI 训练任务,详情请见新建任务。
GPU/NPU支持清单
目前包括但不限于以下GPU/NPU型号支持显存和算力的共享与隔离,您可以提交工单了解更多:
GPU/NPU卡型号 |
---|
NVIDIA V100 16GB SXM2 |
NVIDIA V100 32GB SXM2 |
NVIDIA T4 |
NVIDIA A100 80GB SXM |
NVIDIA A100 40GB SXM |
NVIDIA A800 80GB |
NVIDIA A30 |
NVIDIA A10 |
昆仑芯 R200 |