数据配置 选择奖励模型后,自动匹配训练数据集,您只需调整数据拆分比例即可。 建议数据集总条数在1000条以上,训练模型更加精准。 另外本训练任务支持您选择开启闲时训练,任务提交后,等待平台资源空闲时进行调度。不保证资源的独占,训练过程中可能会被抢占。适合对时效性要求不高的任务。其支持范围和价格可查看闲时训练计费明细 以上所有操作完成后,点击“确定”,则发起模型训练的任务 。
在大规模的分布式训练中,通过使用RDMA有效解决网络传输中服务器端数据处理的延迟问题,从而实现高吞吐、低延迟的网络通信,提升训练效率。 NCCL 是NVIDIA的集合通信库,能实现Collective通信和点对点通信,NCCL内部已经实现了RDMA通信,同时NCCL可以根据环境中网卡类型和拓扑关系,自行选择一个最优的通信路径,目前主流的分布式训练框架都已支持NCCL。
在线标注 目录 什么是自动标注 标注文本生成类数据 标注图像生成类数据 平台提供数据标注功能:在您选择数据集后,平台会根据不同的数据格式,跳转至与之对应的数据标注工作台。 登录到 本平台 ,在左侧功能列选择 在线标注 ,进入在线标注主任务界面。
训练任务优先级管理 使用背景 为保障高优用户以及高优任务的资源需求,百舸平台针对训练任务新增了优先级规则配置功能,队列管理员可在队列详情中启用该功能,为不同用户或角色设定可使用的最高任务优先级,确保高优任务优先获得资源。
根据历史经验,不同数据量范围、网络的大致耗时范围如下,供辅助参考 图像分类 网络及设置 数据量范围 训练耗时预估 ResNet50(batch size=16) 1-1.5w 2节点预估12-14min左右;4节点11min左右 4-6k 5min左右,10min以内,多节点或单节点不太影响训练时长 1k 以下 2-3min左右,多节点或单节点不太影响训练时长 物体检测 网络及设置 数据量范围 训练耗时预估
002-开始训练 运行 您在画布中配置好算子组件以及参数后,需点击画布上方的“运行”按钮,一键训练模型。
训练任务失败错误排查 表格预测一般是由于任务类型选择错误引起的。当训练任务失败时,请您检查选择的任务类型与目标列是否匹配,以下为各个任务类型对应的目标: 算法类型 目标列 二分类 目标列是离散值,且只有两种可能的取值。如在精准营销场景中预测一个用户是否为潜在购买用户,其目标列仅存在“True”和“False”两种取值,解决该问题的模型属于二分类模型。 多分类 目标列是离散值,并具有有限的可能取值。
查看训练结果 在脚本调参任务训练完成后,可以查看任务结果。 在BML左侧导航栏中单击“脚本调参”,进入脚本调参列表页面。 在脚本调参表单中单击“任务列表”,可以进入其任务列表页面,如下所示: 在任务列表中,单击评估报告,可以查看该任务生成的模型的报告信息,如下所示:
查看训练结果 在脚本调参任务训练完成后,可以查看任务结果。 在BML左侧导航栏中单击“脚本调参”,进入脚本调参列表页面。 在脚本调参表单中单击“任务列表”,可以进入其任务列表页面,如下所示: 在任务列表中,单击评估报告,可以查看该任务生成的模型的报告信息,如下所示:
声音分类训练时长说明 训练时长与数据量、所选算法紧密相关。 目前 声音分类的训练时长主要影响因素为数据量 ,以下为内部测试的数据量与训练时长的对应关系,供参考: 数据量 训练时长 数十个音频 60min左右 数百个音频 90min左右 数千个音频 120min左右 数万个音频 150min以上