开启GPU显存共享
更新时间:2025-04-29
概述
本文介绍如何开启并使用GPU显存共享功能,开启后支持多任务共享同一张卡的显存和算力资源。
前提条件
- 开启GPU显存共享功能的节点基础环境符合兼容性要求,详情参考https://cloud.baidu.com/doc/CCE/s/9lrrdyikg 。 如节点基础环境不符合要求,需要从资源池中移出,在BCC控制台进行操作系统重装。
节点基础环境建议版本:
- OS:Ubuntu 22.04
- CUDA:12.2
- Driver:535.x
- 组件版本要求:
- CCE AI Job Scheduler:1.7.34以上
- CCE GPU Manager:1.5.46以上
创建物理队列并开启显存共享功能
- 登录百舸异构计算平台AIHC控制台。
- 在左侧菜单栏选择自运维资源池,进入资源池列表页面,找到您想要查看的资源池,进入资源池详情。
- 进入队列管理页面,创建物理队列,并开启“显存共享”开关,选择要添加到队列的节点规格和数量。
- 单击确定,完成队列创建。
- 队列列表页面能看到队列带有“显存共享”标签。
提交训练任务
- 进入百舸分布式训练页面并创建任务 https://console.bce.baidu.com/aihc/tasks
- 选择开启了显存共享的资源池和队列
- 资源配置中填写需要使用的算力资源,支持填写0-1之间的一位小数,如0.1即代表申请10%的算力和显存。