CCE GPU Manager 说明
更新时间:2026-03-23
概述
本文档介绍 CCE GPU Manager 组件的功能、适用场景、限制说明及安装方法。CCE GPU Manager 组件是一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。该组件支持隔离最优型,可实现算力和显存的共享与隔离。在 CCE 集群中运行 GPU 应用时,可缓解 AI 训练等场景中独占整张卡造成的资源浪费,从而提高资源利用率并降低成本。
前提条件
- 当前账号在目标地域下已存在可用的 CCE 集群,并具备访问目标集群组件管理页面的权限。
- 集群 Kubernetes 版本为 v1.18 及以上,且节点环境满足本文“限制说明”中的容器运行时、GPU Driver 和操作系统内核版本要求。
- 如需使用组件完整功能,请同时安装 CCE AI Job Scheduler。若当前地域下无可用集群,请先完成集群创建,并确保账户余额满足控制台校验要求。## 组件功能
- 拓扑分配:提供基于 GPU 拓扑分配功能,当用户分配超过1张 GPU 卡给 Pod 时,系统自动选择拓扑连接最快的方式分配 GPU 设备。
- GPU 共享:提供为节点上的 GPU 设备开启显存共享功能,支持将 GPU 卡按显存大小分配给多个 Pod。
- 显存和算力隔离:多 Pod 共享单张 GPU 卡时进行显存和算力级别的隔离。
- 精细化调度:开启精细化调度后,创建队列和任务时均支持选择具体的GPU型号。关闭精细化调度后创建队列和容器时仅支持输入配额,不支持选择具体的GPU型号。
- 编解码实例:提交编解码任务,使用GPU独立的编解码单元进行硬件编/解码。
- 组件详细使用说明请参照:GPU独占和共享说明
使用场景
在 CCE 集群中运行 GPU 应用时,可以解决 AI 训练等场景中独占整张卡造成资源浪费的情况,从而提高资源的使用率,降低成本。
限制说明
- 支持 v1.18 及以上版本的 Kubernetes 集群。
- 目前该组件依赖于 CCE AI Job Scheduler,若您需要请一同安装,否则可能导致组件功能不可用。
- GPU 共享虚拟化目前适配了以下主流的GPU CUDA和Driver版本,其中隔离最优型对操作系统内核版本等有额外的要求。如您有其他版本适配需求请提交工单。目前支持情况具体如下。
| 配置 | 版本 |
|---|---|
| 容器运行时 | Docker、Containerd |
| GPU CUDA/Driver 版本 | GPU Driver 470.X、515.X、525.X |
| 操作系统内核版本(仅隔离最优型) | CentOS:3.10.0-957.21.3.el7.x86_643.10.0-1160.41.1.el7.x86_643.10.0-1160.42.2.el7.x86_643.10.0-1160.45.1.el7.x86_643.10.0-1160.62.1.el7.x86_643.10.0-1160.71.1.el7.x86_643.10.0-1160.76.1.el7.x86_643.10.0-1160.80.1.el7.x86_643.10.0-1160.81.1.el7.x86_643.10.0-1160.83.1.el7.x86_643.10.0-1160.88.1.el7.x86_643.10.0-1160.90.1.el7.x86_644.17.11-1.el7.elrepo.x86_645.4.123-1.el7.elrepo.x86_64Ubuntu: 4.4.0-150-generic4.15.0-140-generic5.4.0-72-generic5.4.0-139-generic |
安装组件
导航路径:产品服务->云原生->容器引擎 CCE->集群管理->集群列表,进入目标集群后选择 运维与管理->组件管理。
- 登录 百度智能云官网 并进入管理控制台。
- 进入 产品服务->云原生->容器引擎 CCE->集群管理->集群列表。
- 在集群列表中,单击目标集群名称,进入集群管理页面。
- 进入 运维与管理->组件管理。
- 在组件管理列表中找到 CCE GPU Manager 组件,单击 【安装】。
- 在安装确认弹窗中,按需配置组件参数。
- 单击 【确认】,完成组件安装。
安装参数说明如下:
| 参数 | 必填 | 说明 |
|---|---|---|
| GPU 虚拟化模式 | 是 | 按业务需求选择对应模式。默认选择隔离最优型。 |
| GPU 显存共享单位 | 否 | 设置 GPU 显存共享的分配单位。默认单位为 GiB。 |
| 精细化调度 | 否 | 开启后,创建队列和任务时支持选择具体 GPU 型号;关闭后,仅支持输入配额,不支持选择具体的 GPU 型号。默认开启。 |
版本记录
| 版本号 | 适配集群版本 | 更新时间 | 变更内容 | 影响 |
|---|---|---|---|---|
| 1.5.48 | CCE v1.18+ | 2025.05.13 | 优化: 缺陷修复: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.47 | CCE v1.18+ | 2025.04.14 | 优化: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.45 | CCE v1.18+ | 2025.03.21 | 新功能: 优化: 缺陷修复: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.44 | CCE v1.18+ | 2025.03.11 | 新功能: 缺陷修复: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.42 | CCE v1.18+ | 2025.02.12 | 新功能: 缺陷修复: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.41 | CCE v1.18+ | 2025.01.24 | 新功能: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.40 | CCE v1.18+ | 2024.12.31 | 新功能: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.39 | CCE v1.18+ | 2024.11.07 | 新功能: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.38 | CCE v1.18+ | 2024.10.18 | 缺陷修复: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.37 | CCE v1.18+ | 2024.09.10 | 新功能: 优化: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.36 | CCE v1.18+ | 2024.08.05 | 新功能: 优化: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.35 | CCE v1.18+ | 2024.07.05 | 新功能: 优化: 缺陷修复: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.34 | CCE v1.18+ | 2024.06.24 | 优化: 缺陷修复: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.33 | CCE v1.18+ | 2024.05.31 | 新功能: 优化: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.32 | CCE v1.18+ | 2024.05.15 | 新功能: 优化: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.31 | CCE v1.18+ | 2024.05.06 | 新功能: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.30 | CCE v1.18+ | 2024.03.26 | 新功能: 修复: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.29 | CCE v1.18+ | 2024.01.19 | 新功能: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.28 | CCE v1.18+ | 2023.12.15 | 新功能: 优化: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.27 | CCE v1.18+ | 2023.12.1 | 优化: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.26 | CCE v1.18+ | 2023.11.17 | 新功能: 优化: 缺陷修复: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.25 | CCE v1.18+ | 2023.11.03 | 新功能: 优化: 增加对节点的 sgpu.ko 内核前置检查:增加残留模块版本校验以及残留无效模块删除重装 缺陷修复: 限制: |
GPU内核态虚拟化业务不支持热升级,升级方式为排空节点升级 |
| 1.5.24 | CCE v1.18+ | 2023.09.22 | 新功能: 缺陷修复: 使用限制: |
|
| 1.5.23 | CCE v1.18+ | 2023.08.29 | 优化: 使用限制: |
|
| 1.5.22 | CCE v1.18+ | 2023.08.10 | 缺陷修复: 使用限制: |
评价此篇文章
