将实例加入故障注入白名单 接口说明 将实例加入故障注入白名单 请求结构 PUT /v{version}/failinject/whitelist HTTP/1.1 HOST: rds.bj.baidubce.com Content-Type: application/json Authorization: authorization string { "appList": ["
功能说明 节点故障检测范围&故障处理 故障检测范围:支持对节点的GPU/RDMA/CPU/内存等资源进行健康检查 故障处理方式(不同的故障类型,故障处理的方式不同): 更新Node Condition:更新故障信息到 Node Condition 打印节点事件:将故障的信息打印到节点的事件 隔离节点:自动隔离故障节点 类别 检测维度 描述 故障处理方式 GPU GPU掉卡 掉卡,无法识别GPU
设备使用准备 设备使用准备 定制方案—语音芯片方案 : 专业版方案使用百度提供的语音芯片进行录音、降噪和唤醒等,请与百度侧进行商务咨询。
设备使用准备 设备使用准备 通用方案—软件授权方案 : 软件授权方案包含标准的云端ASR、NLP技能以及TTS能力,百度SDK接收用户传入的一路音频数据,并返回用户相关语义或tts结果。 软件授权方案支持Linux系统和RTOS系统,用户分别需要准备以下信息以获取SDK。
使用规则引擎将设备消息流转到业务服务器 概述 天工平台将设备上报的数据流转至百度kafka中,之后,业务应用服务器可以消费kafka中的数据进行业务处理。 应用场景 场景说明: 通过百度消息服务kafka削峰填谷,缓冲消息,减轻服务器同时接收大量设备消息的压力。 持久化设备上报的业务数据,防止业务处理应用故障导致消息丢失造成损失。 前提条件 已开通百度消息服务。
疏散故障实例 本文档主要说明如何对故障的实例通过疏散进行重新部署。 功能说明 疏散能力是提高服务可用性,保障您的业务稳定性的关键方式之一。
BCH 报错500怎么处理 BCH500报错一般两个原因。 数据库信息填写错误导致,需要填写正确的数据库信息。数据库信息在-控制面板-账号信息中。 源码异常导致,建议更换或更正源码文件。 BCH 报错502如何处理 BCH 502报错,有几种原因: 是由于负载满了导致,建议查看监控,如果跑满了可以尝试升级配置。
故障原因 CentOS等Linux操作系统默认开启透明大页,若您GPU实例上部署的业务中有频繁的内存分配场景,就可能触发透明大页频繁进行内存规整、内存迁移等操作来聚合透明大页,这些操作可能会通过发送ipi让某个CPU执行flush tlb操作,当这些flush tlb操作堆积起来,CPU没办法调度其他进程运行,可能造成soft lockup,最终导致系统宕机。
功能说明 故障自愈范围 百舸提供针对以下故障的自愈能力: 故障分类 故障名称 故障说明 故障影响 自愈策略 GPU GPUUnhealthyExt GPU带外故障 GPU异常 封锁节点,排水,维修 GPUUnhealthy GPU带内故障 GPU异常 封锁节点,排水,重启或维修 主板 MainboardUnhealthyExt 主板带外故障 主板异常 封锁节点,排水,维修 内存 MemoryUnhealthyExt
获取RTMP设备推流拉流链接 获取RTMP设备推流拉流链接 功能描述 用于获取RTMP设备推流和播流链接。请求需要指定域名,EVS服务端通过域名判断当前请求类型是RTMP的播流或推流。