GPU卡详情及使用场景
更新时间:2021-11-30
GPU卡详情
GPU服务器使用的NVIDIA GPU卡基本参数信息如下表所示:
GPU卡型号 | CUDA Cores | Tensor Cores | 显存容量 | FP64浮点性能 | FP32浮点性能 | FP16浮点性能 | INT8性能 |
---|---|---|---|---|---|---|---|
NVIDIA Tesla A10 | 9216 | 288 | 24GB | -- | 31 Tflops | 125 Tflops | 250 Tops |
NVIDIA Tesla A100 | 6912 | 432 | 40GB | 9.7 Tflops | 19.5 Tflops | 312 Tflops | 624 Tops |
NVIDIA Tesla T4 | 2560 | 320 | 16GB | -- | 8.1 Tflops | 65 Tflops | 130 Tops |
NVIDIA Tesla V100-32G | 5120 | 640 | 32GB | 7.8 Tflops | 15.7 Tflops | 125 Tflops | 60 Tops |
NVIDIA Tesla P4 | -- | 2560 | 8GB | -- | 5.5 Tflops | -- | 22 Tops |
GPU使用场景
GPU的主流应用场景包含计算型和渲染型
计算型应用可按照业务负载类型按以下分类
人工智能训练
- 针对深度学习的训练负载,有大批量的数据,例如图片、语音、文本等,需要不断更新、迭代神经网络中的参数以满足业务对预测精度的要求
- 可选择高性能的GPU型号来缩短网络模型的收敛时间,深度学习中存在大量矩阵计算,建议选择支持Tensor Core功能的GPU做计算加速
- 进一步提高计算效率可选择分布式训练并选择支持高速GPU互联能力的型号,例如Nvidia Tesla A100、Nvidia Tesla V100等
人工智能推理
- 针对深度学习的在线推理场景,相比训练负载,推理负载对GPU性能的要求降低,但对运行稳定性要求更高,对服务器响应延时也有了更高要求
- 可选择NVIDIA Tesla T4、NVIDIA Tesla P4 在满足性能要求的同时,提供更具性价比的选择,同时支持GPU硬件级的解码功能并加速端到端的图片类推理性能
高性能计算
- 常见的高性能计算应用包括计算流体力学、分子动力学、有限元分析等,通常需要高精度算力来满足应用对精度的要求
- 可选择NVIDIA Tesla A100、NVIDIA Tesla V100等支持双精度浮点计算的GPU型号
渲染型应用可按照业务负载类型按以下分类
图像渲染
- 渲染是用软件从模型生成图像的过程,需要 GPU 卡实现图形加速及实时渲染并常存在CPU、GPU频繁交互的场景
- 推荐使用单精度FP32性能高并支持光线追踪的GPU型号,例如Tesla A10、Tesla T4等
远程图形工作站
- 终端或者客户端通过专用网络连接到主机来进行日常的工作,主机服务器常集中部署在数据中心机房,并通过GPU卡处理图形工作负载
- 推荐使用Tesla T4型号GPU