单击 训练任务 ,进入训练任务列表页面 单击 创建任务 ,进入创建训练任务的流程 在 高级配置 模块中,针对于任务维度开启 告警 选项,参数如下: 参数 描述 任务状态 目前支持通知的状态: 1.任务进入运行状态 2.任务失败退出 3.任务成功结束 4.任务hang:需要用户首先开启hang检测功能 5.任务发生容错 6.任务所在节点出现故障 通知策略 基于百度云 Prometheus监控服务 的
尽量均衡 DP 间的采样样本长度; Packing 模式下,支持数据集按 packing 后的样本总计算量排序,尽量均衡 DP 间的计算量(在长序列场景下,由于样本长度差异较大,该问题可能更严重); 升级 Megatron 显存优化机制,在长序列等对显存要求极高的场景下,可用于精细的调整显存占用,包括: 支持流水线并行按 PP Stage 动态设置不同的 PP Layer 数目; 支持重计算功能按
RSA解密加速服务 概述 RSA算法是一种最广为使用的“非对称加密算法”,一般公钥/私钥长度越长,安全性就越好,计算也越复杂。
NORTH_CHINA": 0, "SOUTH_WEST": 0, "totalCount": 1, "CENTRAL_CHINA": 0, "SOUTH_CHINA": 0 } } Model对象定义 ResourceCount 参数名称 类型 描述 total Integer 总量 runningCount Integer 运行中数量
NORTH_CHINA": 0, "SOUTH_WEST": 0, "totalCount": 1, "CENTRAL_CHINA": 0, "SOUTH_CHINA": 0 } } Model对象定义 ResourceCount 参数名称 类型 描述 total Integer 总量 runningCount Integer 运行中数量
边缘计算节点 操作者 事件类型 事件名称 事件说明 资源类型 资源说明 主账号/子用户 Console CreateBecService 创建容器应用 Service 容器应用 主账号/子用户 Console StartBecService 开启容器应用 Service 容器应用 主账号/子用户 Console StopBecService 停止容器应用 Service 容器应用 主账号/子用户 Console
使用方法: 当前 PP Stage 存在显存不均衡问题,第一个stage 一般显存占用最多,需要开启更多的重计算layer数;而最后一个stage占用显存最少,可以开启最少的重计算层数或者不开重计算。
string desc 负载均衡描述 string listener 负载均衡下挂载监听器列表 array port 监听器端口 string type 监听器协议类型 string name 负载均衡名称 string publicIp 负载均衡公网IP string regionId 负载均衡所在节点ID string status 负载均衡状态,可用值:PENDING(调度中)、RUNNING(运行中
响应参数 参数名称 类型 描述 requestId String 请求ID clusterId String 集群ID 错误码 错误码 错误描述 HTTP状态码 中文解释 BadRequest computeSpec is empty. 400 计算节点规格为空。
DeployInstance> purchaseCount 购买数量 integer regionId 节点ID string subnetId 子网ID string vpcId VPC ID string id 服务ID string name 服务名称 string networkCapacityInMbps 公网带宽,单位为Mbps integer runningInstanceCount 运行实例数