百度太行提供了基于自研GPU硬件架构X-MAN的高性能实例,充分满足AI单机训练、分布式集群训练、AI推理部署等对算、存、传的性能诉求。
支持百度自研昆仑AI芯片,多规格商业GPU、FPGA。
GPU多卡NVLink互联,集群RDMA网络通信。
统一计算架构,云产品无缝接入,性能零损耗。
提供AI超级服务器、RDMA网络、大吞吐低延时的并行文件系统、AI增强的容器调度等软硬协同方案,大大提升训练速度和推理效率。
支持GPU资源共享与隔离、架构感知调度,让容器以更细颗粒度调度使用GPU资源,提升异构资源的容器化部署密度,提升资源利用率。
内置PaddlePaddle、TensorFlow、Pytorch等多种主流深度学习框架,满足不同使用需求和习惯。
可根据业务需求在不同场景部署落地,公有云、IDC等场景均可输出AI异构计算平台的解决方案。
AI计算、AI存储、AI容器三大核心产品均可各自独立提供服务,并能够无缝兼容存量的基础设施。
商品推荐、视频推荐、广告精准投放等场景的开发、训练和推理
环境感知、路径规划、行为决策与控制等场景中的开发、训练等
生物基因、药品研发等高性能、密集型计算场景的开发、训练、推理
问答系统、文本分析、智能翻译等场景的开发、训练和推理
人脸识别、静态图像识别、视频/监控识别、医疗影像诊断等场景的开发、训练、推理
以推荐、广告CTR为核心场景的电商、短视频等业务,面对千亿维稀疏特征、TB级参数模型,模型开发、训练、推理过程中有大量GPU使用场景,训练场景下有大量数据并行和模型并行,GPU之间通信非常频繁、存储吞吐量较高。
相比于CPU训练集群,性价比提升5~40倍
多个模型,CTR提升显著
百度太行提供了基于自研GPU硬件架构X-MAN的高性能实例,算力百分百用于真实业务,零损耗高性能,充分满足AI单机训练、分布式集群训练、AI推理部署等对算、存、传的性能诉求,极大提升企业端到端AI业务的部署效率。
百度沧海存储产品体系基于AI存储架构,从数据上云、数据存储、数据处理和数据加速为计算提供全链条的支撑。并行文件存储PFS,支持对象存储数据连接,实现冷热数据真正联通,成本降低60%以上,具备超高性能、超低延迟。
容器引擎服务CCE(AI容器)提供GPU显存和算力的共享与隔离,集成PaddlePaddle、TensorFlow、Pytorch等主流深度学习框架,支持AI任务编排、管理等。帮助企业提高GPU资源利用率、提升AI训练速度,实现降本增效。