如何检测GPU常见故障 在GPU云服务器使用过程中可能会出现GPU硬件故障或者亚健康状态,如果您发现应用程序出现报错或者GPU硬件性能下降,可通过以下检测方法检测是否存在故障,发现故障后,可通过重启实例或者重置GPU卡等方式修复,如果问题持续发生,请您提交工单。 掉卡故障检测 您可依次通过以下几种检测方法,判断当前实例是否存在GPU掉卡故障。 方法一:检测GPU掉卡数量 检测步骤 登录实例。
如何检测RDMA常见故障 在GPU云服务器使用过程中可能会出现RDMA硬件故障或者亚健康状态,如果您发现应用程序出现报错或者RDMA硬件性能下降,可通过以下检测方法检测是否存在故障,发现故障后,可通过重启实例等方式修复,如果问题持续发生,请您提交工单。 网卡状态检测 您可通过以下检测方法,判断当前实例是否存在网卡状态故障。 检测步骤 登录实例。
将实例加入故障注入白名单 接口说明 将实例加入故障注入白名单 请求结构 PUT /v{version}/failinject/whitelist HTTP/1.1 HOST: rds.bj.baidubce.com Content-Type: application/json Authorization: authorization string { "appList": ["
功能说明 节点故障检测范围&故障处理 故障检测范围:支持对节点的GPU/RDMA/CPU/内存等资源进行健康检查 故障处理方式(不同的故障类型,故障处理的方式不同): 更新Node Condition:更新故障信息到 Node Condition 打印节点事件:将故障的信息打印到节点的事件 隔离节点:自动隔离故障节点 类别 检测维度 描述 故障处理方式 GPU GPU掉卡 掉卡,无法识别GPU
功能说明 故障自愈范围 百舸提供针对以下故障的自愈能力: 故障分类 故障名称 故障说明 故障影响 自愈策略 GPU GPUUnhealthyExt GPU带外故障 GPU异常 封锁节点,排水,维修 GPUUnhealthy GPU带内故障 GPU异常 封锁节点,排水,重启或维修 主板 MainboardUnhealthyExt 主板带外故障 主板异常 封锁节点,排水,维修 内存 MemoryUnhealthyExt
将实例从故障注入功能白名单移除 接口说明 将实例从故障注入功能白名单移除 请求结构 PUT /v{version}/failinject/whitelist/remove HTTP/1.1 HOST: rds.bj.baidubce.com Content-Type: application/json Authorization: authorization string { "appList
故障处理 BCC Windows实例重置密码不成功 介绍BCC Windows实例重置密码不成功的原因以及解决办法。 BCC Windows实例磁盘脱机 介绍BCC Windows实例磁盘脱机问题的解决方法。
CDN回源未缓存gzip压缩文件 CDN回源会在请求头中添加Via头标识该请求来源于代理服务器,源站(Nginx、iis)默认不会响应带via头请求gzip、br等压缩文件。
疏散故障实例 本文档主要说明如何对故障的实例通过疏散进行重新部署。 功能说明 疏散能力是提高服务可用性,保障您的业务稳定性的关键方式之一。
Raid物理磁盘介质故障 RaidPdUG Warning 您的实例${InstanceName}Raid物理磁盘介质故障,请您关注并留意该实例上业务的受影响情况。 Raid虚拟磁盘缺少BBU缓存 RaidVdNoBBUCacheErr Warning 您的实例${InstanceName}Raid虚拟磁盘缺少BBU缓存,请您关注并留意该实例上业务的受影响情况。