自动安装GPU驱动及CUDA(推荐)
更新时间:2024-12-27
GPU的驱动和CUDA是使用GPU计算的必备组件。您在使用GPU云服务器的过程中,可实现自动为GPU实例安装驱动及CUDA。
通过控制台勾选自定义GPU驱动安装驱动
创建GPU实例
请参考创建实例,并按照向导选择安装GPU驱动。该操作会自动帮助您安装GPU驱动、CUDA、Cudnn、DCGM以及Fabric manager(如果GPU包含NVSwitch)。
重装GPU实例
您可通过重装实例为已经运行中的实例安装或更新所需要的GPU驱动,操作如下:
登录云服务器控制台,并为需要安装或者更新GPU驱动的实例点击重装。
在弹窗中选择需要的公共镜像的操作系统,并勾选安装GPU驱动,选择需要的版本。
通过控制台或API的数据注入安装驱动
在创建、重装实例时可以通过注入如下的安装脚本实现安装GPU驱动:
API数据注入参数: 控制台数据注入入口:
脚本内容,替换如下脚本中的DRIVER_VERSION,CUDA_VERSION,CUDNN_VERSION参数为所需要的版本号,建议您参考建议安装的GPU驱动列表选择版本:
#!/bin/bash
DRIVER_VERSION="535.216.03"
CUDA_VERSION="12.5.1"
CUDNN_VERSION="9.6.0"
WORK_DIR="/root/auto_install"
SCRIPT_URL="http://mirrors.baidubce.com/nvidia-binary-driver/api/auto_install.sh"
mkdir ${WORK_DIR}
pushd ${WORK_DIR}
for ((i=0; i<120; i++))
do
wget --timeout=10 -t 10 ${SCRIPT_URL}
if [ $? -eq 0 ]; then
break
else
sleep 1
fi
done
bash ${WORK_DIR}/$(basename ${SCRIPT_URL}) ${DRIVER_VERSION} ${CUDA_VERSION} ${CUDNN_VERSION}
popd
rm -rf ${WORK_DIR}
cmdline=$(cat /proc/cmdline)
if [[ "${cmdline}" =~ "pci=realloc" ]]; then
echo "remove 'pci=realloc' cmdline arg and update grub"
default_grub_arg="/etc/default/grub"
sed -i 's/pci=realloc//g' ${default_grub_arg}
if command -v grub2-mkconfig; then
efi_grub_cfg=/boot/efi/EFI/centos/grub.cfg
if [ -f /boot/efi/EFI/rocky/grub.cfg ]; then
efi_grub_cfg=/boot/efi/EFI/rocky/grub.cfg
fi
grub2-mkconfig -o $efi_grub_cfg
fi
if command -v update-grub; then
update-grub
fi
reboot
else
echo "there is no 'pci=realloc' arg in current cmdline, do nothing"
fi
查看自定义GPU驱动安装进展
在实例状态变为运行中后,登录实例可通过以下命令查看当前安装GPU驱动的进展:
cat install_info.log
看到如下的安装提示后,可通过nvidia-smi检查驱动是否正常工作。
注意:安装过程中请避免执行重启实例、重装实例等涉及实例关机的操作,否则安装无法完整执行
配置BCM事件通知
如您的业务系统需要自动化获取GPU驱动安装状态,可订阅BCM事件中的驱动安装成功并配置报警策略实现,系统将在实例中的GPU驱动安装完成后推送此事件。