单GPU容器共享多卡使用说明

更新时间：2024-01-24

本文介绍通过指定资源描述符使用sGPU的单容器多卡能力，分为GPU显存/算力同时隔离以及仅隔离显存的场景。

1. GPU显存/算力同时隔离

资源描述符	单位	含义
baidu.com/xxx_xxx_cgpu	个数	申请的GPU卡个数，该场景表示申请的GPU共享卡个数
baidu.com/xxx_xxx_cgpu_core	百分比	容器申请的总算力
baidu.com/xxx_xxx_cgpu_memory	GiB	容器申请的总显存

单张共享卡的资源：

每张 GPU卡的算力资源：baidu.com/xxx_xxx_cgpu_core/baidu.com/xxx_xxx_cgpu
每张 GPU卡的显存资源：baidu.com/xxx_xxx_cgpu_memory/baidu.com/xxx_xxx_cgpu

资源描述示例，如下示例代表：该Pod共申请50%的算力，以及10GiB的显存，2张GPU共享卡。所以每张GPU共享卡的资源为 25%的算力以及5GiB显存。

        resources:
          limits:
            baidu.com/a10_24g_cgpu: "2"
            baidu.com/a10_24g_cgpu_core: "50"
            baidu.com/a10_24g_cgpu_memory: "10"

2. GPU显存隔离，算力共享

资源描述符	单位	含义
baidu.com/xxx_xxx_cgpu	个数	申请的GPU卡个数，该场景表示申请的GPU共享卡个数
baidu.com/xxx_xxx_cgpu_memory	GiB	容器申请的总显存

单张共享卡的资源：

每张 GPU卡的算力资源：与其他容器共享100%的算力。
每张 GPU卡的显存资源：baidu.com/xxx_xxx_cgpu_memory/baidu.com/xxx_xxx_cgpu

资源描述示例，如下示例代表：该Pod共申请10GiB的显存，2张GPU共享卡。所以每张GPU共享卡的资源为共享100%的算力以及5GiB显存。

        resources:
          limits:
            baidu.com/a10_24g_cgpu: "2"
            baidu.com/a10_24g_cgpu_memory: "10"

使用限制

单卡的显存/算力需要为正整数，即算力（baidu.com/xxx_xxx_cgpu_core/baidu.com/xxx_xxx_cgpu），显存（baidu.com/xxx_xxx_cgpu_memory/baidu.com/xxx_xxx_cgpu ）需为正整数。
单卡的显存/算力需要大于等于显存/算力的最小单位。
如果没有申请_cgpu_memory或者_cgpu_memory_percent，是不允许申请_cgpu_core
显存隔离最小单位：1GiB。
算力隔离最小单位：5%。

GPU独占和共享说明

GPU虚拟化适配表

百度智能云

容器引擎 CCE

容器引擎 CCE

单GPU容器共享多卡使用说明

1. GPU显存/算力同时隔离

2. GPU显存隔离，算力共享

使用限制