错误返回 当用户访问API出现错误时,会返回给用户相应的错误码和错误信息,便于定位问题,并做出适当的处理。用户的请求会先经过网关,通过网关后才会转发到平台进行处理。当请求发生错误时,可能是网关的错误,也可能是平台的错误。
驱动 ECC Correctable 计数检查 检查ECC Correctable计数是否大于阈值,该数值异常说明存储可能存在硬件错误 fabric-manager 安装检查 检查fabric-manager组件安装情况,该组件异常会导致无法正常提交训练任务 hALT 配置检查 检查hALT配置情况,hALT未配置 会导致物理机发生重启掉电 网卡驱动检查 检查网卡驱动版本,如果存在异常版本会导致集群通信出现故障
错误处理 概述 工作流在执行过程中,可能会因为各种原因出错导致执行失败。目前,operation、foreach、parallel 三类节点支持定义错误重试与错误捕获。 错误重试(retry) 错误重试,指在节点执行出错时进行多次重试。 retry 字段负责错误重试的定义,它的值是一个包含若干重试策略的数组,每个重试策略包含了它所匹配的错误码,错误码命中时策略生效,并不再去匹配其它策略。
错误处理 GO语言以error类型标识错误,CFC支持两种错误见下表: 错误类型 说明 CFCClientError 用户操作产生的错误 BceServiceError CFC服务返回的错误 用户使用SDK调用CFC相关接口,除了返回所需的结果之外还会返回错误,用户可以获取相关错误进行处理。
所有错误码取值来源BCE公共错误码和CFC专有错误码(参考错误码部分内容)。
错误返回 当用户访问 API 出现错误时,会返回给用户相应的错误码和错误信息,便于用户定位问题,并做出适当的处理。
错误返回 当用户访问API出现错误时,会返回给用户相应的错误码和错误信息,便于定位问题,并做出适当的处理。用户的请求会先经过网关,通过网关后才会转发到平台进行处理。当请求发生错误时,可能是网关的错误,也可能是平台的错误。
实例组前置检查(GTID检查) 接口描述 本接口用于实例组前置检查(GTID检查)。 本接口为v1接口。
实例组前置检查(数据检查) 接口描述 本接口用于实例组前置检查(数据检查),传入实例instanceId所在地域必须与当前请求的地域保持一致。 本接口为v1接口。
实例组前置检查(实例连通性检查) 接口描述 本接口用于实例组前置检查(实例连通性检查),当前请求的地域必须与sourceId所在地域保持一致。 本接口为v1接口。