共享GPU场景下的镜像构建注意事项
更新时间:2024-02-02
- 以下环境变量会由 GPU Manager的组件进行注入,请不要添加到镜像的环境变量里面:
环境变量 | 说明 |
---|---|
NVIDIA_VISIBLE_DEVICES | 可见 GPU设备列表,由调度器分配 |
NVIDIA_VISIBLE_GPUS_SLOT | 可见 GPU设备插槽,由调度器分配 |
NVIDIA_VISIBLE_GPUS_UUID | UUID 形式的可见 GPU设备列表,由调度器分配 |
LD_LIBRARY_PATH | 不推荐设置LD_LIBRARY_PATH环境变量,如果非要设置,需要把/usr/lib64目录也按 LD_LIBRARY_PATH=/usr/lib64:$LD_LIBRARY_PATH 形式添加进去 |
CUDA_MPS_ACTIVE_THREAD_PERCENTAGE | MPS 算力隔离设置,由调度器分配 |
CUDA_MPS_LOG_DIRECTORY | MPS 相关日志地址 |
CUDA_MPS_PIPE_DIRECTORY | 和 MPS SERVER通信的地址 |
CGPUX_XXX | 以 CGPU 开头的环境变量,用于运行显存&算力隔离功能,比如CGPU0_PRIORITY,CGPU0_SHAREMODE |
CGPU_COUNT | 设备数量 |
SGPU_DISABLE | 使用隔离最优型时,表示是否使用虚拟化的方式使用 GPU |
- 构建镜像时,请不要直接将集群中运行的 GPU 容器保存为镜像使用,此种方式保存的镜像会包含GPU Manager组件注入的环境变量,造成虚拟化功能不符合预期或者不可用。