step2:采集/收集数据 在通过上述第一步分析出基本的模型类型,需要进行相应的数据收集工作。数据的主要原则为 尽可能采集真实业务场景一致的数据,并覆盖可能有的各种情况 step3:标注数据 采集数据后,可以通过EasyDL在线标注工具或线下其他标注工具对已有的数据进行标注。
采集/收集数据 在通过上述第一步分析出基本的模型类型,需要进行相应的数据收集工作。数据的主要原则为 尽可能采集真实业务场景一致的数据,并覆盖可能有的各种情况 标注数据 采集数据后,可以通过EasyDL在线标注工具或线下其他标注工具对已有的数据进行标注。
步骤3.上传和标注训练数据 这个步骤将会介绍如何上传和标注训练数据,训练数据是SKU在货架上的实景图,需要客户从真实的业务场景中采集,这些图片在被正确标注中,可以用于训练成模型。
第一步:收集原神角色立绘 通过百度图片搜索,我下载了43张原神不同角色的立绘,将它们按照序号进行标注,打包成ZIP文件。 第二步:对数据进行标注 由于我并没有在本地上传文件的时候就对图片进行了标注,我这里使用的是数据标注板块下的在线标注功能。 在线标注工具还是比较方便的,直接点击一个一个标注即可,不需要在本地生成json文件来标注。
数据相关 智能标注 智能标注为一套人机交互的协作标注方式,目前EasyDL物体检测训练任务支持智能标注,在手工标注少量数据后,系统会从数据集所有图片中筛选出最关键的图片并提示需要优先标注。通常情况下,只需标注数据集30%左右的数据即可训练模型。与标注所有数据后训练相比,模型效果几乎等同。
文本分类 Post-pretrain可在输入的泛文本无标注数据上进行简单标注,经过SFT调优后,可将模型文本分类更加的细化精确。 情感分析 Post-pretrain可在输入的泛文本无标注数据上进行初步的情感倾向分析,经过SFT调优后,可用于智能心理咨询或用户评价处理。
好在EasyDL能提供一站式的智能标注、模型训练、服务部署等全流程功能,借助其中的EasyData智能数据服务平台,京东方的工作人员只用标注30%左右的数据,其余的数据都可通过智能标注功能自动完成。 前期的数据采集和标注完成后,就进入核心的模型开发环节。但由于植物密集生长的特殊性,导致成熟后叶子重叠,给模型识别增加了难度。通过EasyDL平台的已有模型难以实现,必须进行定制化开发。
除数据标注外)的权限 QianfanDataOperateAccessPolicy 运维操作千帆大模型平台数据管理(除数据标注外)的权限 QianfanDataReadAccessPolicy 只读访问千帆大模型平台数据管理(除数据标注外)的权限 QianfanDatasetAnnotationFullControlAccessPolicy 完全控制千帆大模型平台数据管理-数据标注的权限,注:多人标注发起相关操作目前仅主用户可操作
想要提升模型效果,可以尝试以下两种方法: 检查并优化训练数据 检查是否存在训练数据过少 的情况,建议 每个标签标注50个目标以上 ,如果低于这个量级建议扩充。 检查不同标签的标注目标数是否均衡 ,建议 不同标签的标注目标数数据量级相同,并尽量接近 ,如果有的标签标注的很多,有的标签标注的很少,会影响模型整体的识别效果。 通过 模型效果评估报告中的错误识别示例 ,有针对性地扩充训练数据。
漏识别:橙框内应该有目标物体(准备训练数据时标注了),但模型没能识别出目标物体 观察漏识别的目标有什么共性:例如,一个检测会议室参会人数的模型,会漏识别图片中出现的白色人种。这大概率是因为训练集中缺少白色人种的标注数据造成的。因此,需要在训练集中添加包含白色人种的图片,并将白色人种标注出来。