自动故障隔离功能管理
更新时间:2024-11-21
自动故障隔离是百舸提供的节点故障检测&故障处理的能力,支持对节点的GPU/RDMA网卡/内存资源进行健康探测,针对于健康检查异常的节点进行故障上报以及自动隔离,并触发百度云运维系统的告警,由百度云运维团队介入处理。
功能说明
节点故障检测范围&故障处理
- 故障检测范围:支持对节点的GPU/RDMA/CPU/内存等资源进行健康检查
-
故障处理方式(不同的故障类型,故障处理的方式不同):
- 更新Node Condition:更新故障信息到 Node Condition
- 打印节点事件:将故障的信息打印到节点的事件
- 隔离节点:自动隔离故障节点
类别 | 检测维度 | 描述 | 故障处理方式 |
---|---|---|---|
GPU | GPU掉卡 | 掉卡,无法识别GPU场景 | 1.更新 Node Condition,GPUUnhealthy:True 2.打印节点事件 3.自动隔离故障节点 |
GPU内存 | GPU内存EccError等场景 | 1.更新 Node Condition, GPUUnhealthy:True 2.打印节点事件 3.自动隔离故障节点 |
|
GPU链路 | Nvlink故障,带宽异常等场景 | 1.更新 Node Condition, GPUUnhealthy:True 2.打印节点事件 3.自动隔离故障节点 |
|
GPU XID | Nvidia GPU 的 Xid 故障 | 根据XID不同,处理方式不同,具体如下: 1. XID 48、62、64、74、79、95、109、122、123、124 , 处理方式:更新 Node Condition, GPUUnhealthy:True & 打印节点事件 &自动隔离故障节点 2. 除上述列出的XID列表以外的XID,处理方式:仅打印事件 |
|
GPU其他故障 | 温度过高、功耗异常、驱动异常等场景 | 1.更新 Node Condition, GPUUnhealthy:True 2.打印节点事件 3.自动隔离故障节点 |
|
网卡 | 网卡up/down | 网卡频繁up/down(包含RDMA网卡和智能卡) | 1.更新 Node Condition, NICUnhealthy:True 2.打印节点事件 3.自动隔离故障节点 |
网卡降速 | 网卡降速,未达到设计速度等场景(包含RDMA网卡和智能卡) | 1.更新 Node Condition, NICUnhealthy:True 2.打印节点事件 3.自动隔离故障节点 |
CPU/内存 | CPU | 常见CPU Cache读写错误等场景 | 仅打印事件 | 内存 | 常见的不可恢复的ECC故障等场景 | 1.更新 Node Condition, MemoryUnhealthy:True 2.打印节点事件 3.自动隔离故障节点 |
可以恢复的ECC错误风暴、可隔离的故障场景 | 仅打印节点事件 | 内核 | 内核 | 内核死锁,内核crash等场景 | 1.更新 Node Condition, KernelDeadlock:True 2.打印节点事件 3.自动隔离故障节点 |
文件系统 | 文件系统 | 文件系统只读等 | 1.更新 Node Condition, ReadonlyFilesystem:True 2.打印节点事件 3.自动隔离故障节点 |