漏识别:橙框内应该有目标物体(准备训练数据时标注了),但模型没能识别出目标物体 观察漏识别的目标有什么共性:例如,一个检测会议室参会人数的模型,会漏识别图片中出现的白色人种。这大概率是因为训练集中缺少白色人种的标注数据造成的。因此,需要在训练集中添加包含白色人种的图片,并将白色人种标注出来。
数据标注 由于需训练一个目标检测模型,检测图片中的烟火,所以标注时需选择目标检测模版进行标注,标注时注意所有图片中出现的烟雾、火种都需要被框出(框可以重叠),检测框应包含整个识别对象,且尽可能不要包含多余的背景。 提示:由于烟火检测干扰样本多,极容易造成误检,生活中有很多物体和烟火是非常接近的,很难区分(比如:云朵、红色的灯光等),容易造成模型误检,所以建议也采集一定数量的数据作为负样本。
因此后面的展示都是在选定了 文本对话 的基础上 选定了数据集的格式,我们就创建并导入数据喽✔️ 数据标注状态:是因为千帆平台支持在线标注呢~,我们可以先导入prompt,再在平台上标注。
产品优势 可视化操作 无需深度学习专业知识,通过模型创建-数据上传-模型训练-模型发布全流程可视化便捷操作,最快15分钟即可获得一个高精度模型。 操作步骤 Step 1 创建模型 确定模型名称,记录希望模型实现的功能。 Step 2 上传并标注数据 不同类型的任务对应的数据格式不一致,您可以上传未标注数据并使用平台提供的标注工具进行标注。或直接上传各任务的标注数据。
之所以没有这样做, 主要原因还是标注数据太少了 ,一共才3万条标注数据。理想情况下,如果标注数据足够多,可能 SFT 就足够了,这时候也不需要再做强化学习。现实中数据量达不到足够多,这时候就要借助强化学习。 再回顾一下千帆大模型:PPO是强化学习的一种算法,经过了PPO以后的1.3B的模型效果好于未经过PPO的175B模型,可见强化学习对大模型效果提升非常明显。
之所以没有这样做, 主要原因还是标注数据太少了 ,一共才3万条标注数据。理想情况下,如果标注数据足够多,可能 SFT 就足够了,这时候也不需要再做强化学习。现实中数据量达不到足够多,这时候就要借助强化学习。 再回顾一下千帆大模型:PPO是强化学习的一种算法,经过了PPO以后的1.3B的模型效果好于未经过PPO的175B模型,可见强化学习对大模型效果提升非常明显。
漏识别:橙色遮盖内应该有目标物体(准备训练数据时标注了),但模型没能识别出目标物体 观察漏识别的目标有什么共性:例如,一个检测会议室参会人数的模型,会漏识别图片中出现的白色人种。这大概率是因为训练集中缺少白色人种的标注数据造成的。因此,需要在训练集中添加包含白色人种的图片,并将白色人种标注出来。
创建及导入数据集 1、在官网界面点击【数据总览】,进入数据集操作界面,点击【创建数据集】。 2、进入创建数据集界面,填写相关信息,选择数据和标注类型(注意训练集、验证集、测试集需要分开创建)。 3、数据集创建完成后,可以在数据总览界面看到刚才创建好的数据集ID,点击【导入】,将自己要训练的数据集导入。 以本地导入-上传压缩包为例:导入方式选择【本地导入】,选择标注格式,点击【上传压缩包】。
前提 数据质量是保证模型效果的前提,在EasyDL零售版中,数据质量涉及实景图和单品图的图片质量,以及实景图的标注质量, 开始模型优化前,请先学习如何采集合格的图片和进行合格的标注 ,各个参考文档如下: 实景图采集: 实景图数据要求 实景图标注: 实景图标注规范 SKU单品图: SKU单品图数据要求 点击下载 数据采集与标注规范长图 ,一张图看懂如何采集和标注数据,让您不走弯路,获得一个高精度的商品检测模型
3、数据标注 选择刚创建的数据集 先创建一个应用 点击自动生成,然后保存标注。 更多的自动生成需要开通付费功能。不再使用的时候可以终止付费。 标注完成。 2.2、模型训练 创建SFT任务,行业选择 其他 。 开通 BLOOMZ-7B大模型的付费。 确认之前创建的数据集已经发布。 在创建的SFT任务中选择该数据集。 备注:若数据量小于32条,该模型无法启动训练 。 开始训练。