故障类问题 云服务器/关系型数据库列表为什么会为空? 用户未创建云服务器/关系型数据库实例,需要去“控制台>云服务器/关系型数据库”页面创建实例,创建成功后会自动同步展示到监控列表中。 站点监控为何会频繁出现数据不足或者监控项趋势图出现断点(不连续)的状态? 监控的目标网站不稳定导致监控超时,没有采集到有效数据。 用户已经配置了异常通知,当报警状态变为异常后,为什么只发送一次报警短信或报警邮件?
将实例从故障注入功能白名单移除 接口说明 将实例从故障注入功能白名单移除 请求结构 PUT /v{version}/failinject/whitelist/remove HTTP/1.1 HOST: rds.bj.baidubce.com Content-Type: application/json Authorization: authorization string { "appList
如何检测GPU常见故障 在GPU云服务器使用过程中可能会出现GPU硬件故障或者亚健康状态,如果您发现应用程序出现报错或者GPU硬件性能下降,可通过以下检测方法检测是否存在故障,发现故障后,可通过重启实例或者重置GPU卡等方式修复,如果问题持续发生,请您提交工单。 掉卡故障检测 您可依次通过以下几种检测方法,判断当前实例是否存在GPU掉卡故障。 方法一:检测GPU掉卡数量 检测步骤 登录实例。
39;] } //表示请求用户的故障注入白名单列表为:允许此用户下的所有满足故障注入条件的实例发起故障注入操作 { "appList": ["rds-xxxxx"] } //返回一个实例列表,仅允许列表内的实例发起故障注入操作
Linux格式化与挂载实例挂载本地磁盘 背景 本文介绍如何将实例中的一块本地盘进行格式化并挂载文件目录。 适用镜像:百度智能云CentOS、Ubuntu系列公共镜像。 适用实例规格:支持本地盘的实例规格,例如bcc.l5系列。
将实例加入故障注入白名单 接口说明 将实例加入故障注入白名单 请求结构 PUT /v{version}/failinject/whitelist HTTP/1.1 HOST: rds.bj.baidubce.com Content-Type: application/json Authorization: authorization string { "appList": ["
功能说明 节点故障检测范围&故障处理 故障检测范围:支持对节点的GPU/RDMA/CPU/内存等资源进行健康检查 故障处理方式(不同的故障类型,故障处理的方式不同): 更新Node Condition:更新故障信息到 Node Condition 打印节点事件:将故障的信息打印到节点的事件 隔离节点:自动隔离故障节点 类别 检测维度 描述 故障处理方式 GPU GPU掉卡 掉卡,无法识别GPU
疏散故障实例 本文档主要说明如何对故障的实例通过疏散进行重新部署。 功能说明 疏散能力是提高服务可用性,保障您的业务稳定性的关键方式之一。
配置Linux 分析工具atop和kdump atop atop是一个功能非常强大的linux服务器监控工具。 它以一定的频率记录系统的运行状态,所采集的数据包含系统资源(CPU、内存、磁盘、网络)的使用情况和进程运行情况。 并以日志文件的方式保存在磁盘中,服务器出现问题后,我们可以获取相应的atop日志文件进行分析。
GPU实例宕机故障排查 故障现象 使用CentOS等Linux系统的GPU实例且部署的业务会频繁进行内存分配时,实例发生宕机。