故障自愈
更新时间:2024-11-21
背景信息
大模型训练过程中服务器会有极小概率出现硬件级别故障,特别是在大规模算力使用场景下,算力规模越大发生硬件故障的可能性越高。当发生硬件故障时可能会影响节点和节点上服务的正常运行。
针对这一场景,百舸提供故障自动感知、上报能力,并配合业务情况针对不同的故障信息执行一系列自愈操作(如封锁节点、重启、机器维修等),降低故障对业务的影响以及充分保证节点的可用性和业务的稳定运行。
功能说明
故障自愈范围
百舸提供针对以下故障的自愈能力:
故障分类 | 故障名称 | 故障说明 | 故障影响 | 自愈策略 |
GPU | GPUUnhealthyExt | GPU带外故障 | GPU异常 | 封锁节点,排水,维修 |
GPUUnhealthy | GPU带内故障 | GPU异常 | 封锁节点,排水,重启或维修 | |
主板 | MainboardUnhealthyExt | 主板带外故障 | 主板异常 | 封锁节点,排水,维修 |
内存 | MemoryUnhealthyExt | 内存带外故障 | 内存异常 | 封锁节点,排水,维修 |
MemoryUnhealthy | 内存带内故障 | 内存异常 | 封锁节点,排水,维修或重启 | |
网卡 | NICUnhealthy | 内存带内故障 | 内存异常 | 封锁节点,排水,维修或重启 |
故障自愈流程
使用说明
使用前提
资源池已经安装百度云 CCE CCE Node Remedier 组件和 CCE Node Problem Detector 组件
- CCE Node Remedier:节点自动维修系统,实现节点故障自愈,要求组件版本>=0.2.3
- CCE Node Problem Detector :实时检测节点上各种异常情况,并将检测结果上报至集群 >=0.8.30
开启故障自愈
- 选择“资源池详情 > 节点管理 > 故障自愈”,点击“立即开启”
-
故障自愈配置
- 故障检测:开启故障自愈后,会自动开启故障节点检测。
- 节点封锁:自动封锁故障节点,避免后续新任务调度到故障节点无法运行。可配置自动封锁节点数量上限,达到上限后,新检测到的故障节点不会被自动封锁。
- 节点自愈:针对GPU、内存、主板、网卡等故障进行自愈恢复处理,可单独关闭节点自愈功能,关闭节点自愈后,故障节点仅被封锁,不进入节点自愈流程。
- 消息订阅:开启“故障自愈 > 节点自愈”后,支持开启消息订阅功能,故障节点进入自愈流程会触发消息通知,支持邮件、电话、短信、webhook等方式通知对应用户。
自愈活动
开启故障自愈后,检测到故障节点并触发自愈流程后,会生成一条自愈活动记录,可点击自愈活动ID查看自愈活动详情。