通过节点组升级GPU节点驱动版本
更新时间:2025-11-27
如果您使用的CUDA库需要匹配更高版本的NVIDIA驱动,您需要升级GPU节点的驱动版本。基于节点组升级GPU节点NVIDIA驱动后,您可以批量管理集群中不同GPU节点的NVIDIA驱动。本文介绍如何通过节点组升级现有GPU节点NVIDIA驱动。
使用限制
- GPU驱动升级,依赖云助手产品,需要开通云助手产品。
- GPU驱动内置在节点的操作系统,不支持升级GPU驱动。
- 免责声明:此功能无法保证所有驱动在所有卡型下可用,因此,需要自行确保上传的 GPU 驱动版本与 GPU 型号匹配,并进行充分测试,否则可能导致性能降低或存在未知风险。
- 仅支持节点组中的GPU节点,不属于节点组的节点需要将节点添加至节点组,请参见添加已有节点。
注意事项
- GPU驱动升级将自动卸载旧版本并安装新版本,期间会强制关闭所有使用GPU的程序。
- GPU驱动安装过程预计耗时约 10 到 20 分钟,节点启动时间会更长,并伴有自动重启。
- 升级GPU驱动版本,可以选择的驱动版本请参见GPU驱动选装版本发布记录。
-
若需要 GPU 驱动升级功能,节点配置需要注意以下情况:
- 节点镜像类型:目前仅支持公共镜像类型,不支持自定义镜像、GPU镜像、共享镜像类型。
- 操作系统限制:目前公共镜像仅支持BaiduLinux 3.0、CentOS 8.0~8.4、Ubuntu 20.04~24.04、Rocky Linux 8.5~8.8,Rocky Linux9.0~9.4。
- 对于已经安装GPU驱动、NVIDIA Container Runtime等GPU组件的自定义操作系统镜像,CCE无法保证其提供的GPU驱动与CCE其他GPU组件兼容。
- 节点组升级的其他注意事项,详见问答节点组升级注意事项说明。
- GPU驱动升级时会将待升级驱动的GPU节点设置为不可调度状态,并且对GPU节点进行排水操作。
- GPU驱动版本升级之前会进行前置检查,前置检查全部通过后才能升级。
操作步骤
- 登录容器引擎控制台。
- 在左侧导航栏,选择集群列表。
- 在“集群列表”页面单击目标集群,进入集群管理页面。
- 在集群管理页面左侧导航栏中选择节点管理 > 节点组。
- 在目标节点组操作列选择更多 > 升级进入节点组升级页面并完成升级配置。
| 配置项 | 必选/可选 | 配置说明 |
|---|---|---|
| 升级对象 | 必选 | 选择节点需要升级的对象为GPU驱动升级。
|
| 升级范围 | 必选 | 选择升级的节点范围。
|
| 节点排水 | 必选 | GPU节点升级驱动版本前必须进行排水操作,驱逐节点上的Pod,不支持取消。 |
| 每批次执行最多节点数 | 必选 | 节点组中的节点升级分批次进行,设置每批次最大并行升级的节点数,默认为1,最大可设置10。关于升级流程说明,请参见上方:原地升级方式概述。 |
| 自动暂停策略 | 必选 | 设置升级过程中的暂停策略。
|
| 每批次间隔时间 | 必选 | 当自动暂停策略选择不暂停时,需要设置节点过程中每批次的间隔时间。
|
| 间隔时间 | 必选 | 当每次批间隔时间选择设置间隔时间时,需要设置升级过程中执行下一次批次升级的间隔时间,默认为5分钟,设置范围为5~120分钟。 |
- 单击前置检查,在前置检查全部通过后开始节点升级。
-
在升级过程中,您可以进行如下操作。
- 暂停:暂停升级。单击暂停,暂停升级后,升级中的节点将继续升级直至完成,已完成升级的节点不支持版本回退。
- 继续:继续升级。单击继续,节点组将继续执行剩余节点的升级。
- 取消:取消升级。单击取消,节点组将取消后续节点的升级,升级中的节点将继续升级直至完成。已完成升级的节点的不支持版本回退。
- 升级完成后,您可以在节点页面单击节点名称,在节点列表页查看节点的kubelet版本、容器运行时版本等信息是否符合预期。


注意:
暂停状态为节点组升级的中间状态,建议您不要在此期间对集群进行操作,并尽快完成升级过程。集群会将处于中间状态的节点组在7日之后关闭升级过程,并清理一切升级相关的事件和日志信息。
