CCE GPU Manager 说明
更新时间:2023-05-12
组件介绍
一系列 GPU device plugin 的集合,结合配套的 scheduler 可以实现复杂场景下的 GPU 资源调度能力。CCE GPU Manager组件分为两个型号:隔离最优型和性能最优型。隔离最优型可支持算力和显存的共享与隔离;性能最优型除支持算力和显存的共享与隔离外,还可支持显存超发和编解码实例等功能。您可根据业务情况按需选择。
组件功能
- 拓扑分配:提供基于 GPU 拓扑分配功能,当用户分配超过1张 GPU 卡给 Pod 时,系统自动选择拓扑连接最快的方式分配 GPU 设备。
- GPU 共享:提供为节点上的 GPU 设备开启显存共享功能,支持将 GPU 卡按显存大小分配给多个 Pod。
- 显存和算力隔离:多 Pod 共享单张 GPU 卡时进行显存和算力级别的隔离。
- 精细化调度:开启精细化调度后,创建队列和任务时均支持选择具体的GPU型号。
- 编解码实例:提交编解码任务,使用GPU独立的编解码单元进行硬件编/解码。
- 组件详细使用说明请参照:GPU独占和共享说明
使用场景
在 CCE 集群中运行 GPU 应用时,可以解决 AI 训练等场景中独占整张卡造成资源浪费的情况,从而提高资源的使用率,降低成本。
若您对隔离性要求更高,如多种业务混布在同一集群,推荐隔离最优型;若您对性能要求更高,例如业务对延迟很敏感,推荐性能最优型。
限制说明
- 支持 v1.18 及以上版本的 Kubernetes 集群。
- 目前该组件依赖于 CCE AI Job Scheduler,若您需要请一同安装,否则可能导致组件功能不可用。
- 隔离最优型目前对操作系统和内核版本等有限制,如您有其他版本适配需求请提交工单,目前支持情况如下:
配置 | 版本 |
---|---|
容器运行时 | Docker |
操作系统 | CentOS 7.5、Ubuntu 16.04和Ubuntu 18.04 |
内核版本 | CentOS: Ubuntu: |
CUDA版本 | 10.X、11.X |
安装组件
- 登录百度智能云官网,并进入管理控制台。
- 选择“产品服务 > 云原生 > 容器引擎 CCE”,单击进入容器引擎管理控制台。
- 单击左侧导航栏中的 集群管理 > 集群列表 。
- 在集群列表页面中,单击目标集群名称进入集群管理页面。
- 在集群管理页面单击 组件管理 。
- 在组件管理列表中选择 CCE GPU Manager 组件单击“安装。
- 在确认安装弹出框中选择隔离最优型或性能最优型。
- 点击“确定”按钮完成组件的安装。