一般类问题
1、NVIDIA 深度学习开发卡应该使用哪种驱动?
请在Nvidia官网按照下图的选项进行驱动下载:
2、GPU云服务器支持的显卡型号有哪些?
关于GPU的显卡型号,GPU云服务支持多种GPU型号和实例规格,您可以参考GPU云服务器实例规格族。
3、GPU服务器是否有GPU卡状态监控和报警机制,包括GPU使用率、内存使用率、温度、状态等?
- 登录百度智能云控制台选择云服务器BCC,点击实例进入实例列表页面。
- 选择需要监控的实例名称,进入实例详情页面,然后点击监控按钮进入监控详情页面。
- 在监控详情页面的最下侧,找到扩展监控项,然后选择GPU后,即可看到GPU卡的监控信息。
4、系统中使用 nvidia-smi 查看的CUDA版本与 nvcc -V 看到的CUDA版本不一样,应该以哪个为准?
您执行命令nvidia-smi查询到的CUDA版本代表CUDA Driver版本,此版本是驱动指定,您指定的CUDA 版本通常为CUDA Runtime版本,可通过在操作系统中通过nvcc --version 查看,绝大部分的应用依赖Runtime版本。
5、GPU实际无负载,但使用 nvidia-smi 查看GPU利用率时显示100%
Tesla系列GPU卡提供ECC功能,当GPU云服务器加载GPU驱动时,因 ECC Memory Scrubbing 机制存在,概率出现GPU利用率显示100%情况。遇到此情况时,需要用户在root权限下,执行 nvidia-smi -pm 1 命令,让GPU Driver 进入 Persistence 模式,从而解决此问题。
root@instance-xxxxxxxx:~# nvidia-smi -pm 1
6、怎么变更GPU实例的实例规格
GPU云服务器的变更策略如下: 支持同规格族同GPU型号的实例规格进行规格升配,不支持带本地盘的实例变配。 具体操作为:
1、登录BCC云服务器控制台 2、在需要编配的实例操作栏中,选择更多->实例设置->配置变更 3、选择目标变配的配置
7、购买GPU实例后,通过nvidia-smi获取的显存规格少于标称规格
GPU默认开启了ECC(error correcting code,错误检查和纠正)功能,用来检查和纠正可能会在数据传输和存储过程中引发的比特错误,开启时会使可用显存减少,并伴随部分性能损失。为提高数据的正确性,建议您保持开启状态。
8、按量付费/后付费的GPU实例是否支持关机不计费
对于后付费的GPU云服务器实例,关机不计费的限制如下:
- 支持不带本地盘的实例开启关机不计费。
- GN5系列A100 GPU实例暂不支持关机不计费。
- 特别提示: 选择关机不计费后,再次开机可能遇到因资源售罄导致的启动失败,请谨慎选择该选项。
具体操作为: 在实例操作列表中的实例状态选择停止,并在弹出的页面中选择关机不计费,如果选择关机选项,则实例仍正常计费。
9、普通云服务是否支持变配GPU云服务器,或者GPU云服务器是否支持跨规格族,跨不同卡变配
不支持。
10、为什么购买GPU实例后,执行命令nvidia-smi找不到GPU显卡?
当您执行命令nvidia-smi无法找到GPU显卡时,通常是由于您的GPU实例未安装或者未成功安装NVIDIA驱动。请根据您所购买的GPU实例规格选择对应的操作指引来安装驱动,具体说明如下:https://cloud.baidu.com/doc/GPU/s/Sllz3tvfi