可用性检查
本使用文档提供针对集群通用资源池&节点使用【运维诊断工具-可用性检查功能】的全流程操作指导,您可以参考文档,快速了解并使用集群通用资源池&节点可用性检查相关功能。
该功能使用具体场景可参考如下:
- 创建集群通用资源池
- 扩容集群通用资源池,新增节点
- 日常运维集群通用资源池
创建通用资源池时进行可用性检查
1.登录百度百舸·AI异构计算平台控制台https://console.bce.baidu.com/aihc/resources。
2.在左侧菜单栏选择“通用资源池”,进入资源池列表页面,点击购买通用计算资源。
3.进入创建资源池页面,在相关信息配置中,开启【可用性检查】开关。开启后,将在资源池创建成功后自动进行可用性测试,以保障集群资源池 / 节点的运行状态和任务提交效果。
4.确认订单并提交成功后,资源池列表中显示新创建的资源池,当状态列部署完成后会显示为运行中。
5.单击该资源池状态列图标,可跳转至运维诊断工具—可用性检查页面:
可用性检查页面详细展示了该账户的过往检测信息,包括:检查报告ID、检查结果、检查项、节点以及资源池名称/ID等。
6.检查结果由检查中变为检查完毕后(分为:健康、存在风险、检查失败 3 种状态),右侧搜索框支持根据资源池名称、资源池 ID、检查状态进行筛选。
7.单击检查报告 ID,右侧出现浮层展示详细报告。
8.若检查结果为健康状态,则提示资源池健康;若检查结果为存在风险,则直接展示待处理项。检查结果分为:正常、故障、提醒 三大类。
若存在待处理项目,浮窗将高亮提示:存在风险 *故障、*提醒,可能影响资源池的正常使用,建议您立即处理。
9.在可用性检查界面,可通过操作列-重新检查进行再次自动化检查操作,重新检查会检查该可用性检查任务的配置的全部节点和检查项,而不仅仅是出错的检查项。
具体检查项支持展示一级分类和细分的二级分类,详细检查项清单请见本文文末。
通用资源池扩容时新增节点
1.在左侧菜单栏选择“运维诊断工具”,进入运维诊断工具—可用性检查页面;右上角支持按照资源池名称和 ID 进行筛选,默认展示全部资源池结果。
2.单击立即检查,出现可用性检查弹窗,支持按照资源池名称进行筛选。
3.单击检查项配置,可根据实际业务需求选择具体一、二级待检查项(具体检查项分类清单请见文末),单击确定。
4.根据节点名称/IP等信息选择待检查节点(当前仅支持检查具有加速芯片的节点),单击确定。
5.跳转回运维诊断工具—可用性检查页面,后续操作同上述场景1中6-9步。
具体可用性检查项列表:
一级分类 | 二级分类 | 具体描述 |
---|---|---|
集群组件&状态 | 组件部署状态 | 检查组件Pod的存活情况,正常运行才能有效提交训练任务和部署推理服务 |
节点状态 | 检查集群节点的运行情况,正常运行才能有效提交训练任务和部署推理服务 | |
节点污点、封锁信息 | 检查节点的污点和封锁情况,保障信息正确以便更好使用训练任务的容忍能力 | |
计算软件故障 | 持久化模式开启检查 | 检查加速芯片是否开启了持久化模式,未开启持久化会导致加速芯片功耗增加、性能下降 |
加速芯片固件、驱动版本检查 | 检查多机间加速芯片固件版本是否一致 | |
加速芯片预期数量检查 | 检查节点中感知的加速芯片数量,并与预期数量进行比较确保设备正常工作 | |
加速芯片初始化状态检查 | 检查是否存在未正确初始化或存在问题的加速芯片节点。修订版本可能导致设备存在问题,不能正常工作 | |
Has agent 加速芯片检测开启检查 | 检查Has agent加速芯片故障检测能力是否开启 | |
Has agent 健康性检查 | 检查Has agent的运行情况,Has正常运行才能提供硬件故障上报能力 | |
Has agent 版本检查 | 检查节点安装的Has agent版本是否过低,版本过低会影响故障上报最新功能的使用和准确性 | |
网卡固件版本检查 | 检查多机间网卡固件版本是否一致 | |
驱动 | ECC Correctable 计数检查 | 检查ECC Correctable计数是否大于阈值,该数值异常说明存储可能存在硬件错误 |
fabric-manager 安装检查 | 检查fabric-manager组件安装情况,该组件异常会导致无法正常提交训练任务 | |
hALT 配置检查 | 检查hALT配置情况,hALT未配置会导致物理机发生重启掉电 | |
网卡驱动检查 | 检查网卡驱动版本,如果存在异常版本会导致集群通信出现故障 | |
nouveau 驱动禁用检查 | 检查nouveau驱动禁用情况,该驱动不禁用会导致与加速芯片驱动冲突,影响节点运行和创建任务 | |
peermem 配置检查 | 检查加速芯片peermem包安装情况,该配置未安装会导致显存管理异常,引起任务性能下降 | |
网卡抖动参数配置 | 检查网卡抖动参数是否配置,抖动参数未配置会导致网络性能下降 | |
link_status 健康状态检查 | 检查link_status健康状态,该状态异常会导致多机间通信失败和多机任务无法运行 | |
网卡 | 加速芯片 NVLink 连接拓扑检查 | 检查多个节点加速芯片间是否有正确的NV Link连接 |
多网卡 IP 配置检查 | 检查所有网卡的IP配置,该配置不正确会导致RDMA网络不通 | |
多网卡 IP rule 配置检查 | 检查所有网卡的IP rule配置,该配置不正确会导致RDMA网络不通 | |
MTU 配置检查 | 检查MTU参数配置,该配置不正确会导致网络降速 | |
RDMA 网卡 mac 地址小写检查 | 检查RDMA网卡mac地址是否为小写 | |
GID index 一致性检查 | 检查所有ROCE网卡v2 ipv4的GID index是否一致 | |
加速芯片 NVLink 状态检查 | 检查节点加速芯片的 NVLink 状态,包括活跃状态、数量和带宽 | |
OS | 镜像目录、根目录资源预留检查 | 检查镜像目录、根目录资源大小,如果过小,会导致镜像拉取失败,集群无法创建任务 |
图形界面关闭检查 | 检查图形界面是否关闭,图形界面未关闭会导致节点死机问题 | |
Kubelet 资源预留检查 | 检查Kubelet资源预留情况,如果预留资源过少会导致节点负载过高时节点假死 | |
OS & Kernel 版本检查 | 检查节点间的OS和内核版本是否一致 | |
内核参数检查 | 检查PFS-L1设置的内核参数是否正确,阈值设置错误会影响存储设备性能 | |
检查根目存储 | 检查镜像目录、根目录资源大小,如果过小,会导致镜像拉取失败,集群无法创建任务 | |
sGPU 内核依赖检查 | 检查节点内核版本是否支持开启GPU虚拟化功能,较低的内核版本会导致虚拟化失败 |