节点组节点故障检测自愈
更新时间:2024-10-11
节点作为集群的基础设施,其运行状态对业务来说至关重要。基础设施的不稳定性、环境的不确定性经常会引发不同维度的系统故障。为进一步降低用户运维成本,容器引擎CCE提供故障检测自愈功能,面向节点进行常见的故障检测和故障自愈。本文将为您介绍如何配置节点检查自愈功能。
功能概述
容器引擎CCE节点故障检测功能支持对接BCC维修平台实现节点服务器故障的自动检测和自愈,更多信息请参见维修平台概述。
检测项介绍
分类 | 检测项 | 描述 | 推荐自愈动作 |
---|---|---|---|
节点服务器硬件故障 | 硬盘硬件故障 | 服务器硬盘发生硬件故障,需要维修恢复 | 节点封锁、节点排水、节点移出、维修授权 |
其他硬件故障 | 服务器CPU、GPU等其他硬件发生故障, 需要维修恢复 | 节点封锁、节点排水、维修授权、恢复检测 |
说明
- 节点服务器硬件故障:影响业务正常运行的硬件故障,需要更换硬件部件维修。
自愈操作介绍
操作项 | 说明 |
---|---|
节点封锁 | 节点将封锁,Pod无法调度上去 |
节点排水 | 节点上运行的 Pod将会被驱除 |
节点移出 | 节点将被移除集群。支持同步删除服务器实例或保留服务器实例 |
维修授权 | 服务器将授权维修,支持自动授权和人工授权,维修后会产生维修记录,可在维修平台查看维修进度 |
恢复检测 | 检测到故障修复成功后自动解除节点封锁 |
操作步骤
前提条件
- 已在集群组件管理模块安装CCE Node Problem Detector组件和CCE Node Remedier组件。
步骤一:创建检查自愈规则
- 登录容器引擎控制台。
- 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 故障自愈。
-
单击创建自愈规则进入“创建自愈规则”页面完成自愈配置。
检测项 说明 规则名称 配置检查自愈规则的名称。 规则配置 在预置检查项中选择需要检查的项目,并配置异常时是否开启自愈。 自愈配置 自定义配置该检查项的自愈动作。 - 配置完成后,勾选我已知晓并安装了HAS-agent,单击确定,完成配置。
说明
- 节点服务器硬件故障检测需要在服务器上安装HAS-agent,需确保已成功安装,否则无法检测,更多信息请见HAS-agent组件安装与升级。
步骤二:节点组绑定自愈规则
您可以在创建节点组时绑定检查自愈规则,也可以为存量节点组绑定检查自愈规则。当前以创建节点组时绑定检查自愈规则为例。
- 登录容器引擎控制台。
- 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点组。
-
单击创建节点组,创建新的节点组,并在故障检测和自愈处绑定检查自愈规则。
检测项 说明 故障检测和自愈 配置是否开启节点检查自愈功能。 故障自愈规则 选择节点组绑定的自愈规则。 - 单击确定,完成绑定。
后续操作
查看自愈任务详情
- 登录容器引擎控制台。
- 在集群列表页面,单击目标集群名称,然后在左侧导航栏,选择节点管理 > 节点组。
- 在节点组列表页面单击目标节点组进入管理页面。
- 选择自愈活动页签,即可查看当前节点组中所有节点检测到故障而触发自愈操作的任务记录及详情。