当您使用AIAK加速引擎进行推理服务部署时,因首次进行模型权重转换需要一段时间(具体时间取决于您的模型参数大小,模型参数越大,需要的转换时间越长),多副本的其他pod会不断进行失败重试,直到模型权重转换完成后。 在模型权重转换中途失败,再次启动时报错,应该如何解决?
任务类型介绍 概述 在集群中进行的变更、重启等操作会在任务管理中产生一条任务记录。目前集群中的任务类型分为: 开启公网:当用户开启公网时,会产生一条开启公网的任务记录。 关闭公网:当用户关闭公网时,会产生一条关闭公网的任务记录。 变更公网带宽:当用户调整公网的带宽大小时,会产生一条变更公网带宽的记录。 增加节点数量:当用户通过变更操作新增集群的节点时,会产生一条增加节点数量的任务记录。
响应参数 参数 类型 描述 requestId String 请求ID 错误码 错误码 错误描述 HTTP状态码 中文解释 NoSuchObject The specified object is not found or resource do not exist. 404 资源不存在 NoSuchObject instanceId i-aaaa,i-bbbb does not exist. 400
响应参数 参数名称 类型 描述 requestId String 请求ID 错误码 错误码 错误描述 HTTP状态码 中文解释 BadRequest cluster c-xxxxxxxx is in xxx status, cannot add queue, only active status allowed. 400 只有处于active状态的虚机可以创建队列 The default queue
响应参数 参数名称 类型 描述 requestId String 请求ID 错误码 错误码 错误描述 HTTP状态码 中文解释 BadRequest The default queue does not allow deletion 400 修改的集群描述应该与当前集群描述不一样 BadRequest The queue which is not active does not allow deletion
action=setIPAcl 设置访问IP配置 domain:修改配置的CDN加速域名。
弹性裸金属服务器 操作者 事件类型 事件名称 事件说明 资源类型 资源名称 主账号/子用户 Console/API CreateBBC 创建BBC BBCInstance BBC ID 主账号/子用户 Console/API DeleteBBC 释放或删除BBC BBCInstance BBC ID 主账号/子用户 Console/API RebulidBBC 重装BBC BBCInstance BBC
报警记录页面包含如下信息:报警规则名称、状态、报警对象、报警规则、开始时间、结束时间、操作。
功能介绍 飞桨EasyDL桌面版提供数据处理、模型训练、模型部署全流程的模型生产能力。
为了保障大规模分布式训练任务稳定运行,百舸异构计算平台提供了任务自动容错的能力,支持对训练任务进行异常感知、容错判断以及自动恢复。 功能说明 百舸训练容错提供以下几方面能力: 训练异常感知:提供训练进程异常的感知能力,特别是针对于难以识别的任务hang场景。 容错判断:基于百舸资源池 自动故障隔离能力 ,检测任务所在节点是否发生故障,如发生故障会自动隔离节点,触发任务容错流程。