弹性高性能计算集群
更新时间:2023-09-11
弹性高性能计算集群
弹性高性能计算集群EHC是基于高性能RDMA网络,将多个裸金属服务器进行互联,每个裸金属服务器配置单独的RDMA网卡,可提供高带宽、低时延的通信能力,极大提升计算任务的加速比的计算集群,适用于超大模型训练、科学计算等大规模计算场景。百度智能云可提供业界主流RDMA技术路线,满足多场景计算需求。
名词解释:
RDMA:RDMA全称为Remote Direct Memory Access,即远程直接内存访问,允许本地应用程序直接读写远程应用程序的用户态虚拟内存。
RoCE v2:RoCE(全称RDMA over Converged Ethernet)是一种兼容性技术,允许RDMA的传输层运行在以太网络之上,避免了独立的网络基础设施投资,也解决了与外部以太网互联互通的问题。
RDMA IP:由百度智能云为弹性高性能计算实例中的RDMA网卡分配的Ip,降低RDMA网络的配置复杂度。用户可在EHC实例详情中查看RDMA IP地址,如下图。
弹性高性能计算集群LGN5
适用场景:
- 人工智能超大规模训练:例如无人驾驶、NLP大模型、广告推荐等场景
- 高性能计算:生命科学、计算物理等场景
规格特点:
- 具备百度太行·弹性裸金属服务器的特性
- GPU镜像包含GPU驱动、CUDA、OFED网卡驱动等必备环境。
- 处理器:Intel Xeon Platinum 8350C,主频 2.6GHz,睿频 3.1GHz
- GPU:NVIDIA Tesla A800 SXM,FP16算力达到312TFLOPS,单GPU显存80GB HBM2,支持双向带宽400GB的Nvlink互联
- 存储:可支持16TB容量全闪存本地SSD存储,支持GPU Direct Storage
- 网络:支持180G VPC网络带宽及800G的RDMA专有网络,并支持GPU Direct RDMA特性
注意:VPC网络和RDMA专有网络相互隔离,即实例VPC IP与RDMA IP之间不互通
实例规格 | GPU显卡数量 | vCPU | 内存大小(GiB) | 硬盘 | 内网带宽(Gbps) | RDMA网络带宽(Gbps) | 网络收发包(pps) | 队列数 |
---|---|---|---|---|---|---|---|---|
ehc.lgn5.c128m1024.8a800.8re.4d | 8张 | 128核 | 1024 | 4* 4T NVMe SSD | 180 | RoCE v2 800 | 3000万 | 32 |