所有文档

          EasyDL定制AI训练平台

          专业版训练任务高级配置

          在配置训练任务时,我们会提供一些高级配置,如数据增强、超参搜索等,帮助开发者们通过多种维度提升模型效果。

          目前,数据增强策略已开放配置,开发者可以根据实际需求选用。

          数据增强策略

          深度学习模型的成功很大程度上要归功于大量的标注数据集。通常来说,通过增加数据的数量和多样性往往能提升模型的效果。但是在实践中,收集数目庞大的高质量数据并不是一件简单的事,在某些特定领域甚至无法获取大量数据。那么如何能在有限数据的情况下尽可能提升模型的效果呢?

          数据增强可以实现这一目的。数据增强技术通过对数据本身进行一定程度的扰动从而产生"新"数据,模型通过学习大量的"新"数据,提高泛化能力。

          在配置训练任务的页面,配置完训练集之后,紧接着就可以配置数据增强策略。

          image.png

          你可以在「默认配置」、「手动配置」、「自动搜索」三种方式中进行选择,完成数据增强策略的配置。

          默认配置

          如果你不想或不需要配置数据增强策略,就可以选择默认配置。后台会根据你之后选择的网络,自动配置必要的数据增强策略。

          手动配置

          我们提供了大量的数据增强算子供开发者手动配置(详细的算子列表及功能说明请见文末):

          image.png

          每一个算子右侧都提供效果展示,点击即可查看可视化效果:

          image.png

          在列表中勾选了某个算子之后,即可配置该算子在训练中出现概率强度

          模型训练完成后,可在任务的配置详情一数据详情中,查看配置记录。

          配置建议

          算子的配置建议贴合实际场景。比如,数字识别的数据集中,因为对数字的旋转很有可能导致错误样本的产生,所以不建议对数字数据集进行旋转操作。再比如,检测数据集中,如果标注量比较少,就可以通过随机平移的算子增强数据集,模型也更容易学习到目标物体的平移不变性。

          一般情况下,概率可以配置在0.5附近,强度根据个人理解自行配置。

          需要注意,正因为数据增强策略的手动配置依赖于开发者对于实际场景的理解,因此可能存在难以选取有效数据增强算子的情况。这种情况下,可以考虑使用自动策略搜索。

          自动搜索

          数据增强的自动搜索能力,可以在有限的算子组合的搜索空间内,搜索出适用于当前训练集的数据增强算子组合。

          提交训练任务后,自动搜索就会启动,并将搜索出的策略应用在模型训练中。

          搜索结果包括每个算子的出现概率及强度,可在任务的配置详情一数据详情中查看。

          image.png

          支持算子列表

          图像分类算子

          算子名 功能
          ShearX 剪切图像的水平边
          ShearY 剪切图像的垂直边
          TranslateX 按指定距离(像素点个数)水平移动图像
          TranslateY 按指定距离(像素点个数)垂直移动图像
          Rotate 按指定角度旋转图像
          AutoContrast 自动优化图像对比度
          Contrast 调整图像对比度
          Invert 将图像转换为反色图像
          Equalize 将图像转换为灰色值均匀分布的图像
          Solarize 为图像中指定阈值之上的所有像素值取反
          Posterize 减少每个颜色通道的bits至指定位数
          Color 调整图像颜色平衡
          Brightness 调整图像亮度
          Sharpness 调整图像清晰度
          Cutout 通过随机遮挡增加模型鲁棒性,可设定遮挡区域的长宽比例

          物体检测算子

          算子名 功能
          ShearX_BBox 剪切图像的水平边
          ShearX_Only_BBoxes 剪切标注框内图像的水平边
          ShearY_BBox 剪切图像的垂直边
          ShearY_Only_BBoxes 剪切标注框内图像的垂直边
          TranslateX_BBox 按指定距离(像素点个数)水平移动图像及标注框
          TranslateX_Only_BBoxes 按指定距离(像素点个数)水平移动标注框内的图像
          TranslateY_BBox 按指定距离(像素点个数)垂直移动图像及标注框
          TranslateY_Only_BBoxes 按指定距离(像素点个数)垂直移动标注框内的图像
          Rotate_BBox 按指定角度旋转图像及标注框
          Rotate_Only_BBoxes 按指定角度旋转标注框内的图像
          AutoContrast 自动优化图像对比度
          Contrast 调整图像对比度
          Equalize 将图像转换为灰色值均匀分布的图像
          Equalize_Only_BBoxes 将标注框内的图像转换为灰色值均匀分布的图像
          Solarize 为图像中指定阈值之上的所有像素值取反
          Solarize_Only_BBoxes 为标注框内的图像中指定阈值之上的所有像素值取反
          Solarize_add 为图像中指定阈值之下的所有像素值加上像素偏移值
          Posterize 减少每个颜色通道的bits至指定位数
          Color 调整图像颜色平衡
          Brightness 调整图像亮度
          Sharpness 调整图像清晰度
          Cutout 通过随机遮挡增加模型鲁棒性,可设定遮挡区域的长宽比例
          BBox_Cutout 通过在标注框附近进行随机遮挡增加模型鲁棒性,可设定遮挡区域的长宽比例
          Cutout_Only_BBoxes 只在标注框内通过随机遮挡增加模型鲁棒性,可设定遮挡区域的长宽比例
          Flip_Only_BBoxes 对标注框内的图像进行左右翻转

          自动超参搜索

          在深度学习建模过程中,除了大规模的数据集,超参数调节也显著影响模型效果。即使对于有经验的算法工程师,有时候也很难把握调节超参数的规律,而对于初学者来说,要花更多的时间和精力。
          自动超参搜索应用超参搜索策略,对模型的超参数进行自动调优,在配置训练任务的页面,完成数据集的配置后,可以选择使用自动超参搜索进行配置。

          88fa99cda5e82fa9c093cccfc2d94cc7.png

          您可以选择「随机搜索」,「贝叶斯搜索」,「进化算法」作为搜索策略进行超参搜索,所有默认值都是基于试验得出的效果较好的取值。

          随机搜索

          作为基线标准,不需要更多额外的设置,就能高效地进行超参数搜索。

          贝叶斯搜索

          贝叶斯搜索中,您需要设置初始点数量和最大并发量.
          「初始点数量」:代表贝叶斯搜索中,初始化时参数点的数量,该算法基于这些参数信息推测最优点 ,填写范围1-20;
          「最大并发量」:贝叶斯搜索中,同时进行试验的数量,并发量越大,搜索效率越高,填写范围1-20。

          进化算法

          进化算法是一种效果较好的算法,应用此算法时也需要进行较多的选项设置
          「迭代轮数」:进化算法运行中迭代的轮数,范围5-50;
          「扰动间隔」:进化算法每隔几个epoch就会进行随机扰动,利用随机因素防止算法结果收敛于局部最优解;
          「扰动比例」:类似于染色体交叉的形式,迭代中一个种群内最好与最坏的个体依据扰动比例进行交叉;
          「随机初始化概率」:在扰动中,有一定概率对个体的超参数进行初始化;
          「种群个体数量」:一个个体代表一种超参数设置,一个种群中包含多个个体。

          超参范围设置

          超参范围设置中,可以设置需要搜索的超参数和搜索范围。您可以在「默认配置」,「手动配置」中进行选择。

          默认配置

          如果您不行进行超参数选择和范围设置,可以选用默认配置,后台会根据所选网络默认配置必要的超参数进行搜索。

          手动配置

          针对不同的预训练网络,我们提供了丰富的超参数供开发者手动配置,每一个超参数都能选择数据类型和设置搜索范围。 f786d9610d96c674645ba56c6209fb44.png

          详细超参数列表请见下面超参数列表

          搜索超参数列表

          超参数 参数类型 说明
          batch_size 离散值、随机整数 每一个批次处理的数据数量,需根据网络不同机型和网络调整最大值,否则可能因显存不足导致失败
          learning_rate 离散值、平均采样、对数平均采样 控制深度学习网络的学习速度,学习率越低,损失函数的变化速度就越慢,反之亦然
          weight_decay 离散值、平均采样、对数平均采样 对深度学习网络进行权重衰减,防止网络出现过拟合情况
          mix_up 布尔值 选择是否使用mix_up策略,mix_up是一种数据增广方式
          label_smoothing 布尔值 选择是否使用label_smoothing策略,label_smoothing是一种正则化方法
          anchor_scale 离散值,随机整数 anchor大小的缩放尺度,anchor是一组预设的参考框
          anchor_ratio 离散值,随机整数 anchor的长宽比,anchor是一组预设的参考框
          上一篇
          配置视觉任务
          下一篇
          模型效果评估报告