所有文档

          GPU服务器

          一般类问题

          NVIDIA 深度学习开发卡应该使用哪种驱动?

          请在Nvidia官网按照下图的选项进行驱动下载:

          GPU服务器显卡型号有哪些?

          关于GPU的显卡型号,您可以参考此文档 GPU卡详情

          GPU服务器是否有GPU卡状态监控和报警机制,包括GPU使用率、内存使用率、温度、状态等?

          使用状态监控前,需要您手动安装BCM-agent,安装完成后按照以下步骤找到GPU卡的监控信息

          1. 登录百度智能云控制台选择云服务器BCC,点击实例进入实例列表页面。
          2. 选择需要监控的实例名称,进入实例详情页面,然后点击监控按钮进入监控详情页面。
          3. 在监控详情页面的最下侧,找到扩展监控项,然后选择GPU后,即可看到GPU卡的监控信息。

          系统中使用 nvidia-smi 查看的CUDA版本与 nvcc -V 看到的CUDA版本不一样,应该以哪个为准?

          nvidia-smi 工具主要用于查看GPU驱动的版本,在某些时候显示的CUDA版本并不完全准确;

          nvcc 工具是由CUDA toolkit安装编译的CUDA工具,所以通过nvcc查看到的CUDA版本是准确的

          GPU实际无负载,但使用 nvidia-smi 查看GPU利用率时显示100%

          Tesla系列GPU卡提供ECC功能,当GPU云服务器加载GPU驱动时,因 ECC Memory Scrubbing 机制存在,概率出现GPU利用率显示100%情况。遇到此情况时,需要用户在root权限下,执行 nvidia-smi -pm 1 命令,让GPU Driver 进入 Persistence 模式,从而解决此问题。

          root@instance-xxxxxxxx:~# nvidia-smi -pm 1

          上一篇
          操作指南