简介:本文提供一套覆盖硬件选择、操作系统配置、驱动安装、深度学习框架部署及开发环境优化的完整方案,帮助开发者快速搭建稳定高效的深度学习工作站。
深度学习环境对硬件性能要求极高,需重点考虑三大核心组件:
步骤1:禁用默认开源驱动
sudo apt purge nvidia-* # 清除旧驱动sudo add-apt-repository ppa:graphics-drivers/ppa # 添加官方驱动源sudo apt update
步骤2:安装推荐驱动版本
ubuntu-drivers devices # 查看推荐版本sudo apt install nvidia-driver-535 # 以535版本为例
验证:运行nvidia-smi,确认GPU信息及CUDA版本兼容性。
CUDA安装:
.run文件(如CUDA 12.2)。
sudo service lightdm stop # Ubuntu图形界面需停止sudo sh cuda_12.2.2_535.104.05_linux.run
cuDNN安装:
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrcecho 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrcsource ~/.bashrc
tar -xzvf cudnn-linux-x86_64-8.9.6.50_cuda12-archive.tar.xzsudo cp cuda/include/* /usr/local/cuda/include/sudo cp cuda/lib/* /usr/local/cuda/lib64/
步骤1:创建虚拟环境
conda create -n pytorch_env python=3.10conda activate pytorch_env
步骤2:通过conda安装(自动匹配CUDA版本)
conda install pytorch torchvision torchaudio pytorch-cuda=12.2 -c pytorch -c nvidia
验证:
import torchprint(torch.cuda.is_available()) # 应输出Trueprint(torch.version.cuda) # 应与安装的CUDA版本一致
步骤1:确认Python版本(TensorFlow 2.x支持Python 3.8-3.11)。
步骤2:使用pip安装GPU版本
pip install tensorflow-gpu==2.15.0 # 指定版本避免兼容问题
验证:
import tensorflow as tfprint(tf.config.list_physical_devices('GPU')) # 应列出GPU设备
nvidia-smi -l 1监控显存占用,通过torch.cuda.empty_cache()释放碎片内存。DataParallel或DistributedDataParallel:
model = torch.nn.DataParallel(model).cuda() # 简单多卡并行
scaler = torch.cuda.amp.GradScaler()with torch.cuda.amp.autocast():outputs = model(inputs)
pip install jupyterlabjupyter lab --ip=0.0.0.0 --allow-root # 服务器部署时使用
from torch.utils.tensorboard import SummaryWriterwriter = SummaryWriter()writer.add_scalar('Loss/train', loss, epoch)
nvcc --version和nvidia-smi对比版本,必要时降级框架。sudo apt upgrade && conda update --allconda env export > environment.ymlgpustat或nvtop工具。步骤1:安装NVIDIA Container Toolkit
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.listsudo apt update && sudo apt install -y nvidia-docker2sudo systemctl restart docker
步骤2:运行PyTorch镜像
docker run --gpus all -it --shm-size=1g --ulimit memlock=-1 -v $(pwd):/workspace pytorch/pytorch:2.0.1-cuda11.7-cudnn8-runtime
pip install horovod[pytorch]mpirun -np 4 python train.py # 4进程分布式训练
.sbatch脚本管理多节点任务。本教程覆盖了从硬件选型到分布式训练的全流程,结合代码示例与验证命令,确保开发者可按步骤完成环境搭建。实际配置中需根据项目需求灵活调整(如选择更轻量级的框架版本),并定期关注NVIDIA与框架官方的更新日志以获取性能优化建议。