节点组更换操作系统
概述
本文档介绍如何在百度智能云容器引擎 CCE 中对节点组存量节点批量滚动更换操作系统。
CCE 集群会不断发布新的操作系统镜像版本,带来新的功能特性与缺陷修复;通过节点组更换操作系统功能,您可以批量对节点组中的存量节点执行操作系统镜像版本更换,且操作过程不影响节点组配置模板。
前提条件
- 已登录百度智能云控制台,并进入容器引擎 CCE 服务。
- 已创建 CCE 集群,且集群下存在节点数不为 0 的节点组。
- 目标节点组中参与更换的节点状态为可用;节点数为 0 的节点组不支持执行更换操作系统。
发起更换操作系统
从节点组列表发起
导航路径: 集群管理->集群列表->目标集群->节点管理->节点组
- 在节点组列表中,找到需要更换操作系统的节点组所在行,点击该行操作列中的 【更多】 按钮。
-
在展开的下拉菜单中,点击 【更换操作系统】,右侧滑出「xx 节点组 更换操作系统」抽屉面板,进入更换操作系统流程。
说明: 节点数为 0 的节点组,【更换操作系统】 选项为灰色不可点击状态。开启弹性伸缩的节点组同样支持更换操作系统。
从节点组详情页发起
导航路径: 集群管理->集群列表->目标集群->节点管理->节点组->目标节点组名称
- 在节点组列表中,点击目标节点组名称链接,进入节点组详情页。
-
点击 【更多操作】 下拉按钮,在展开的下拉菜单中选择 【更换操作系统】,打开更换操作系统抽屉面板。
说明: 从详情页和列表页发起的更换操作系统流程完全一致。
第一步:操作系统配置
进入抽屉面板后,步骤条当前处于「操作系统配置」阶段。
步骤一:选择更换节点
更换范围 固定为指定节点,一次最多选择 50 个节点。
在节点列表中勾选需要更换操作系统的节点,支持通过节点名称或 IP 地址 进行搜索过滤。
列表底部将实时显示已选节点数量。



步骤二:选择目标操作系统类型
在 目标操作系统类型 字段中选择镜像类型:
| 参数 | 必填 | 说明 |
|---|---|---|
| 目标操作系统类型 | 是 | 支持公共镜像(默认)、自定义镜像、共享镜像;目标操作系统类型和版本取所选节点支持的操作系统的交集 |
步骤三:选择目标镜像类型与版本
在 目标镜像类型 下拉框中选择目标操作系统,目标版本 字段将根据所选镜像类型自动填充可用版本。
| 参数 | 必填 | 说明 |
|---|---|---|
| 目标镜像类型 | 是 | 根据所选目标操作系统类型展示可用镜像,取所有已选节点支持版本的交集 |
| 目标版本 | 是 | 选定镜像类型后自动填充,无需手动输入 |
说明: 若需挂载极速型 L2 并行文件存储(PFS),请选择 CentOS 或 Ubuntu 操作系统。详情参考 使用限制。
步骤四:配置登录凭证
在 登录凭证 区域选择登录方式:
| 参数 | 必填 | 说明 |
|---|---|---|
| 登录方式 | 是 | 支持密钥对(默认)或密码 |
| 密钥对 | 否 | 选择密钥对登录方式时,从下拉框中选择账户下已有的密钥对;若无可用密钥对,可点击 【密钥对创建】 跳转创建 |
| 管理员名称 | — | 固定为 root,不可修改 |
步骤五:配置节点排水
节点排水 选项默认勾选,不可取消。更换操作系统前,系统会对所选节点执行排水操作,驱逐节点上的 Pod。
说明: 建议为重要应用配置 PodDisruptionBudget(PDB),并采用多副本跨节点部署,以降低排水影响。排水失败时,该节点不会执行操作系统更换。
步骤六:配置批次策略
| 参数 | 必填 | 说明 |
|---|---|---|
| 每批次执行最多节点数 | 是 | 每批次最大并行更换的节点数,取值范围 1~10,默认值为 1 |
| 自动暂停策略 | 是 | 不暂停:每批次结束后直接执行下一批次,直至全部完成;首批暂停:第一批次完成后自动暂停,需人工继续,后续批次自动执行;每批次暂停:每批次完成后均自动暂停,需人工逐批确认 |
| 每批次间隔时间 | 否 | 仅在自动暂停策略为不暂停时显示。不设置:批次间不停留;设置间隔时间:输入间隔时长(单位:分钟,取值范围 5~120,默认 5) |
步骤七:进入前置检查
完成所有配置后,点击抽屉底部的 【前置检查】 按钮,页面切换至第二步「前置检查」阶段。


第二步:前置检查
进入前置检查页面后,步骤条当前处于「前置检查」阶段。
步骤一:查看操作系统配置回显
页面展示 操作系统配置 折叠面板,默认处于折叠状态,摘要行展示关键配置项。点击面板标题行展开,可查看第一步所有配置的完整回显:
| 配置项 | 说明 |
|---|---|
| 更换范围 | 指定节点 |
| 已选节点 | 已选节点数量 |
| 目标镜像类型 | 所选镜像类型 |
| 目标操作系统 | 所选目标操作系统版本 |
| 节点排水 | 更换操作系统前驱逐节点上的 Pod |
| 每批次执行最多节点数 | 所配置的批次并行数 |
| 自动暂停策略 | 所选暂停策略 |


步骤二:等待前置检查完成
系统进入前置检查页面后自动发起检查,检查项列表实时更新各项状态。
所有检查项全部通过后,【开始更换】 按钮变为可点击状态。 前置检查项示例如下:
| 检查项 | 状态 | 说明 |
|---|---|---|
| Change OS Params | 通过 | - |
| Node Ready | 通过 | - |
| 升级任务冲突检测 | 通过 | - |
| CheckOSCompatibility | 通过 | 所选节点可升级至目标操作系统版本 |

步骤三:发起二次确认并开始更换
前置检查全部通过后:
-
点击 【开始更换】 按钮,弹出「确认更换操作系统」对话框,对话框提示以下重要信息:
- 更换操作系统将替换系统盘并重置节点,请提前备份系统盘重要数据。
- 更换过程中会对节点执行排水,排水操作将驱逐节点上的 Pod。
- 勾选「我已知晓并同意以上操作」复选框。
- 点击 【确定】 按钮,正式发起节点组更换操作系统任务,页面自动跳转至第三步「节点组更换操作系统」。
第三步:监控与管理更换进程
任务发起后,页面进入「节点组更换操作系统」阶段,展示更换进度与事件记录。
步骤一:查看更换进度与配置回显
页面顶部展示 操作系统配置 折叠面板,默认处于折叠状态。点击面板标题行可展开,查看本次任务的完整配置回显(更换范围、目标操作系统、批次策略等)。
更换进度 区域实时显示「已完成节点数 / 总节点数」,任务完成后显示全部完成并提示「操作系统更换成功」。


步骤二:查看事件信息
节点组更换操作系统事件 区域实时展示任务产生的事件记录,包含以下三列:
| 字段 | 说明 |
|---|---|
| 时间 | 事件产生的时间戳 |
| 事件概要 | 事件操作的简要名称,如「节点排水」「重装操作系统」「触发 Redeploy」「等待部署完成」「恢复调度」等 |
| 事件描述 | 事件的详细说明 |
点击 【刷新】 按钮可手动刷新事件列表,获取最新事件信息。


步骤三:暂停更换操作系统任务
任务处于「更换中」状态时,点击 【暂停更换】 按钮,系统将任务切换为「已暂停」状态,操作区域随即变为 【继续更换】(可点击)和 【取消升级】(可点击)。
说明: 若每批次节点数较多,点击暂停后会先进入「暂停中」过渡态(此时两个按钮均置灰),待当前批次执行完毕后自动进入「已暂停」状态。


步骤四:继续更换操作系统任务
任务处于「已暂停」状态时,点击 【继续更换】 按钮,系统重新进入「更换中」状态,恢复后续批次的操作系统更换流程。


步骤五:取消更换操作系统任务
任务处于「已暂停」或「失败」状态时,【取消升级】 按钮变为可点击。点击后弹出「取消更换操作系统」对话框,确认后系统执行取消操作,完成后提示「取消更换操作系统成功」。
注意: 取消更换后,已完成更换的节点的操作系统不支持版本回退。

说明: 暂停更换操作系统任务后,任务产生的相关事件和日志信息会在集群中保留 7 天,超过 7 天集群将自动关闭升级任务并清理所有升级相关信息,请尽快完成更换操作系统任务。
查看任务完成记录及发起新任务
步骤一:查看上一次更换记录
更换操作系统任务完成后,再次在节点组列表点击 【更换操作系统】 。
进入抽屉面板时,页面顶部显示「上一次升级记录 去查看」提示条。
点击 【去查看】 链接,页面切换至第三步「更换操作系统」历史记录视图,展示以下内容:
- 操作系统配置(默认折叠):点击展开,回显本次任务所用完整配置。
- 更换进度:显示「N/N」,表示已完成节点数与总节点数。
- 事件属性列表:按时间顺序列出任务全程产生的事件记录,涵盖节点排水、重装操作系统、触发 Redeploy、等待部署完成、恢复调度等关键阶段。
更换操作系统期间的操作限制
节点组正在执行更换操作系统任务期间,部分操作将被禁用,禁用时鼠标悬停提示「节点组正在更换操作系统不支持操作」。
具体限制如下:
禁止操作(置灰不可点击):
| 操作 | 提示文案 |
|---|---|
| 编辑节点组 | 节点组正在更换操作系统不支持操作 |
| 更新 kubelet 配置 | 节点组正在更换操作系统不支持操作 |
| 扩缩容 / 调整期望节点数 | 节点组正在更换操作系统不支持操作 |
| 手动移出节点 | 节点组正在更换操作系统不支持操作 |
| 添加已有节点 | 节点组正在更换操作系统不支持操作 |
| 删除节点组 | 节点组正在更换操作系统不支持操作 |
| 更新弹性伸缩配置 | 节点组正在更换操作系统不支持操作 |
| 升级 | 节点组正在更换操作系统不支持操作 |
说明: 若节点组在更换操作系统期间,某节点正在执行其他变更任务(如故障自愈触发的 kubelet 重启、容器运行时重启等),系统将等待该节点变更任务完成后,再对其执行更换操作系统任务。多个节点组可同时独立执行更换操作系统任务,互不影响。
评价此篇文章
