共享GPU场景下的镜像构建注意事项
更新时间:2026-03-20
概述
本文档介绍 GPU 镜像构建与交付过程中的两项关键策略:构建阶段排除 CCE GPU Manager 注入环境变量,以及禁止从运行中 GPU 容器直接保存镜像,避免 GPU 虚拟化能力异常或不可用。
构建镜像时排除 CCE GPU Manager 注入环境变量
以下环境变量会由 CCE GPU Manager 组件在运行时注入,请不要添加到镜像环境变量中:
| 环境变量 | 说明 |
|---|---|
| NVIDIA_VISIBLE_DEVICES | 可见 GPU 设备列表,由调度器分配 |
| NVIDIA_VISIBLE_GPUS_SLOT | 可见 GPU 设备插槽,由调度器分配 |
| NVIDIA_VISIBLE_GPUS_UUID | UUID 形式的可见 GPU 设备列表,由调度器分配 |
| LD_LIBRARY_PATH | 不推荐设置 LD_LIBRARY_PATH 环境变量。如有特殊需求,需将 /usr/lib64 按 LD_LIBRARY_PATH=/usr/lib64:$LD_LIBRARY_PATH 形式加入 |
| CUDA_MPS_ACTIVE_THREAD_PERCENTAGE | MPS 算力隔离设置,由调度器分配 |
| CUDA_MPS_LOG_DIRECTORY | MPS 相关日志地址 |
| CUDA_MPS_PIPE_DIRECTORY | 与 MPS SERVER 通信的地址 |
| CGPUX_XXX | 以 CGPU 开头的环境变量,用于显存与算力隔离,例如 CGPU0_PRIORITY、CGPU0_SHAREMODE |
| CGPU_COUNT | 设备数量 |
| SGPU_DISABLE | 使用隔离最优型时,表示是否以虚拟化方式使用 GPU |
评价此篇文章
