单GPU容器共享多卡使用说明
更新时间:2024-01-24
本文介绍通过指定资源描述符使用sGPU的单容器多卡能力,分为GPU显存/算力同时隔离以及仅隔离显存的场景。
1. GPU显存/算力同时隔离
资源描述符 | 单位 | 含义 |
---|---|---|
baidu.com/xxx_xxx_cgpu | 个数 | 申请的GPU卡个数,该场景表示申请的GPU共享卡个数 |
baidu.com/xxx_xxx_cgpu_core | 百分比 | 容器申请的总算力 |
baidu.com/xxx_xxx_cgpu_memory | GiB | 容器申请的总显存 |
单张共享卡的资源:
- 每张 GPU卡的算力资源:baidu.com/xxx_xxx_cgpu_core/baidu.com/xxx_xxx_cgpu
- 每张 GPU卡的显存资源:baidu.com/xxx_xxx_cgpu_memory/baidu.com/xxx_xxx_cgpu
资源描述示例,如下示例代表:该Pod共申请50%的算力,以及10GiB的显存,2张GPU共享卡。所以每张GPU共享卡的资源为 25%的算力以及5GiB显存。
resources:
limits:
baidu.com/a10_24g_cgpu: "2"
baidu.com/a10_24g_cgpu_core: "50"
baidu.com/a10_24g_cgpu_memory: "10"
2. GPU显存隔离,算力共享
资源描述符 | 单位 | 含义 |
---|---|---|
baidu.com/xxx_xxx_cgpu | 个数 | 申请的GPU卡个数,该场景表示申请的GPU共享卡个数 |
baidu.com/xxx_xxx_cgpu_memory | GiB | 容器申请的总显存 |
单张共享卡的资源:
- 每张 GPU卡的算力资源:与其他容器共享100%的算力。
- 每张 GPU卡的显存资源:baidu.com/xxx_xxx_cgpu_memory/baidu.com/xxx_xxx_cgpu
资源描述示例,如下示例代表:该Pod共申请10GiB的显存,2张GPU共享卡。所以每张GPU共享卡的资源为 共享100%的算力以及5GiB显存。
resources:
limits:
baidu.com/a10_24g_cgpu: "2"
baidu.com/a10_24g_cgpu_memory: "10"
使用限制
- 单卡的显存/算力需要为正整数, 即算力(baidu.com/xxx_xxx_cgpu_core/baidu.com/xxx_xxx_cgpu),显存(baidu.com/xxx_xxx_cgpu_memory/baidu.com/xxx_xxx_cgpu )需为正整数。
- 单卡的显存/算力需要大于等于显存/算力的最小单位。
- 如果没有申请_cgpu_memory或者_cgpu_memory_percent,是不允许申请_cgpu_core
- 显存隔离最小单位:1GiB。
- 算力隔离最小单位:5%。