创建数据集
更新时间:2023-12-12
在训练之前需要在数据中心【创建数据集】,添加并标注数据
设计分类
首先想好分类如何设计,每个分类为你希望识别出的一种结果,如要识别水果,则可以以“apple”、“pear”等分别作为一个分类;如果是审核的场景判断合规性,可以以“qualified”、“unqualified”设计为两类,或者“qualified”、“unqualified1”、“unqualified2”、“unqualified3”……设计为多类。
注意: 目前单个模型的分类上限为1000类
准备数据
基于设计好的分类准备图片:
- 每个分类需要准备20张以上
- 如果想要较好的效果,建议每个分类准备不少于100张图片
- 如果不同分类的图片具有相似性,需要增加更多图片,尽量提升图片数据的丰富度
- 一个模型的图片总量限制10万张(每个账户的图片数量上限为10万张)
图片格式要求:
1、目前支持图片类型为png、jpg、bmp、jpeg,图片大小限制在14M以内
2、图片长宽比在3:1以内,其中最长边小于4096px,最短边大于30px
图片内容要求:
1、训练图片和实际场景要识别的图片拍摄环境一致,举例:如果实际要识别的图片是摄像头俯拍的,那训练图片就不能用网上下载的目标正面图片;如果是需要识别白天光照下的物体,就不能使用夜晚拍摄的图片数据
2、每个分类的图片需要覆盖实际场景里面的可能性,如拍照角度、光线明暗的变化,训练集覆盖的场景越多,模型的泛化能力越强
如果训练图片场景无法全部覆盖实际场景要识别的图片:
- 如果要识别的主体在图片中占比较大,模型本身的泛化能力可以保证模型的效果不受很大影响
- 如果识别的主体在图片中占比较小,且实际环境很复杂无法覆盖全部的场景,建议用物体检测的模型来解决问题(物体检测可以支持将要识别的主体从训练图片中框出的方式来标注,所以能适应更泛化的场景和环境)
如果需要寻求第三方数据采集团队协助数据采集,可以在百度智能云控制台内提交工单