单GPU容器共享多卡使用说明
更新时间:2026-03-20
概述
本文档介绍通过指定资源描述符使用 sGPU 的单容器多卡能力,分为 GPU 显存/算力同时隔离和仅隔离显存两种场景。
1. GPU显存/算力同时隔离
资源描述符
| 参数 | 资源描述符 | 单位 | 含义 | 必填 | 说明 |
|---|---|---|---|---|---|
| GPU 共享卡个数 | baidu.com/xxx_xxx_cgpu |
个数 | 申请的 GPU 卡个数,该场景表示申请 GPU 共享卡个数 | 是 | 需为正整数,用于计算单卡资源 |
| 容器总算力 | baidu.com/xxx_xxx_cgpu_core |
百分比 | 容器申请的总算力 | 是 | 需为正整数,且满足最小算力单位要求 |
| 容器总显存 | baidu.com/xxx_xxx_cgpu_memory |
GiB | 容器申请的总显存 | 是 | 需为正整数,且满足最小显存单位要求 |
单张共享卡资源计算
- 每张 GPU 共享卡的算力资源 =
baidu.com/xxx_xxx_cgpu_core/baidu.com/xxx_xxx_cgpu。 - 每张 GPU 共享卡的显存资源 =
baidu.com/xxx_xxx_cgpu_memory/baidu.com/xxx_xxx_cgpu。
操作步骤
- 导航路径:产品服务->云原生容器引擎 CCE->目标集群->工作负载->创建工作负载。
- 在工作负载配置页的容器资源限制中,填写
baidu.com/xxx_xxx_cgpu、baidu.com/xxx_xxx_cgpu_core、baidu.com/xxx_xxx_cgpu_memory。 - 提交前校验单卡算力与单卡显存是否均为正整数,并满足最小单位限制。
配置示例
YAML
1resources:
2 limits:
3 baidu.com/xxx_xxx_cgpu: "<GPU 共享卡个数>"
4 baidu.com/xxx_xxx_cgpu_core: "<容器总算力百分比>"
5 baidu.com/xxx_xxx_cgpu_memory: "<容器总显存 GiB>"
2. GPU 显存隔离,算力共享
资源描述符
| 参数 | 资源描述符 | 单位 | 含义 | 必填 | 说明 |
|---|---|---|---|---|---|
| GPU 共享卡个数 | baidu.com/xxx_xxx_cgpu |
个数 | 申请的 GPU 卡个数,该场景表示申请 GPU 共享卡个数 | 是 | 需为正整数,用于计算单卡显存 |
| 容器总显存 | baidu.com/xxx_xxx_cgpu_memory |
GiB | 容器申请的总显存 | 是 | 需为正整数,且满足最小显存单位要求 |
单张共享卡资源计算
- 每张 GPU 共享卡的算力资源:与其他容器共享 100% 算力。
- 每张 GPU 共享卡的显存资源 =
baidu.com/xxx_xxx_cgpu_memory/baidu.com/xxx_xxx_cgpu。
操作步骤
- 导航路径:产品服务->云原生容器引擎 CCE->目标集群->工作负载->创建工作负载。
- 在工作负载配置页的容器资源限制中,填写
baidu.com/xxx_xxx_cgpu与baidu.com/xxx_xxx_cgpu_memory。 - 保持不配置
_cgpu_core字段,使算力按共享策略生效。 - 提交前校验单卡显存是否为正整数,且不小于 1 GiB。
配置示例
YAML
1resources:
2 limits:
3 baidu.com/xxx_xxx_cgpu: "<GPU 共享卡个数>"
4 baidu.com/xxx_xxx_cgpu_memory: "<容器总显存 GiB>"
使用限制
- 单卡显存/算力需为正整数,即算力(
baidu.com/xxx_xxx_cgpu_core/baidu.com/xxx_xxx_cgpu)与显存(baidu.com/xxx_xxx_cgpu_memory/baidu.com/xxx_xxx_cgpu)均需为正整数。 - 单卡显存/算力需大于等于对应最小单位。
- 如果未申请
_cgpu_memory或_cgpu_memory_percent,则不允许申请_cgpu_core。 - 显存隔离最小单位为 1 GiB。
- 算力隔离最小单位为 5%。
评价此篇文章
