弹性高性能计算集群
所有文档
menu

GPU云服务器

弹性高性能计算集群

产品详情自助选购

弹性高性能计算集群

弹性高性能计算集群EHC是基于高性能RDMA网络,将多个裸金属服务器进行互联,每个裸金属服务器配置单独的RDMA网卡,可提供高带宽、低时延的通信能力,极大提升计算任务的加速比的计算集群,适用于超大模型训练、科学计算等大规模计算场景。百度智能云可提供业界主流RDMA技术路线,满足多场景计算需求。

名词解释:

RDMA:RDMA全称为Remote Direct Memory Access,即远程直接内存访问,允许本地应用程序直接读写远程应用程序的用户态虚拟内存。

RoCE v2:RoCE(全称RDMA over Converged Ethernet)是一种兼容性技术,允许RDMA的传输层运行在以太网络之上,避免了独立的网络基础设施投资,也解决了与外部以太网互联互通的问题。

RDMA IP:由百度智能云为弹性高性能计算实例中的RDMA网卡分配的Ip,降低RDMA网络的配置复杂度。用户可在EHC实例详情中查看RDMA IP地址,如下图。 image.png

弹性高性能计算集群LGN5

适用场景:

  • 人工智能超大规模训练:例如无人驾驶、NLP大模型、广告推荐等场景
  • 高性能计算:生命科学、计算物理等场景

规格特点:

  • 具备百度太行·弹性裸金属服务器的特性
  • GPU镜像包含GPU驱动、CUDA、OFED网卡驱动等必备环境。
  • 处理器:Intel Xeon Platinum 8350C,主频 2.6GHz,睿频 3.1GHz
  • GPU:NVIDIA Tesla A800 SXM,FP16算力达到312TFLOPS,单GPU显存80GB HBM2,支持双向带宽400GB的Nvlink互联
  • 存储:可支持16TB容量全闪存本地SSD存储,支持GPU Direct Storage
  • 网络:支持180G VPC网络带宽及800G的RDMA专有网络,并支持GPU Direct RDMA特性
注意:VPC网络和RDMA专有网络相互隔离,即实例VPC IP与RDMA IP之间不互通
实例规格 GPU显卡数量 vCPU 内存大小(GiB) 硬盘 内网带宽(Gbps) RDMA网络带宽(Gbps) 网络收发包(pps) 队列数
ehc.lgn5.c128m1024.8a800.8re.4d 8张 128核 1024 4* 4T NVMe SSD 180 RoCE v2 800 3000万 32
上一篇
GPU计算型
下一篇
GPU渲染型