一般类问题
更新时间:2022-10-26
NVIDIA 深度学习开发卡应该使用哪种驱动?
请在Nvidia官网按照下图的选项进行驱动下载:
GPU云服务器支持的显卡型号有哪些?
关于GPU的显卡型号,GPU云服务支持多种GPU型号和实例规格,您可以参考GPU云服务器实例规格族。
GPU服务器是否有GPU卡状态监控和报警机制,包括GPU使用率、内存使用率、温度、状态等?
- 登录百度智能云控制台选择云服务器BCC,点击实例进入实例列表页面。
- 选择需要监控的实例名称,进入实例详情页面,然后点击监控按钮进入监控详情页面。
- 在监控详情页面的最下侧,找到扩展监控项,然后选择GPU后,即可看到GPU卡的监控信息。
系统中使用 nvidia-smi 查看的CUDA版本与 nvcc -V 看到的CUDA版本不一样,应该以哪个为准?
nvidia-smi 工具主要用于查看GPU驱动的版本,在某些时候显示的CUDA版本并不完全准确;
nvcc 工具是由CUDA toolkit安装编译的CUDA工具,所以通过nvcc查看到的CUDA版本是准确的。
GPU实际无负载,但使用 nvidia-smi 查看GPU利用率时显示100%
Tesla系列GPU卡提供ECC功能,当GPU云服务器加载GPU驱动时,因 ECC Memory Scrubbing 机制存在,概率出现GPU利用率显示100%情况。遇到此情况时,需要用户在root权限下,执行 nvidia-smi -pm 1 命令,让GPU Driver 进入 Persistence 模式,从而解决此问题。
root@instance-xxxxxxxx:~# nvidia-smi -pm 1