数据服务简介
更新时间:2022-01-07
数据服务简介
在 BML 中,集成了百度大脑推出的智能数据服务平台 EasyData 作为其数据管理组件。EasyData 面向AI开发的一站式数据服务工具,其围绕 AI 开发过程中所需要数据采集、数据清洗、数据标注等任务需求提供完成的数据服务。
数据管理功能简介
在 BML 中,基于 EasyData 提供了丰富的数据管理能力,满足了不同类型数据在不同训练场景下的管理需求:
数据类型 | 场景 | 数据纳管 | 多人标注 | 智能标注 |
---|---|---|---|---|
图像 | 图像分类(单标签、多标签)、物体检测、实例分割 | 支持 | 支持 | 部分支持 |
文本 | 文本分类(单标签、多标签)、短文本相似度、情感倾向分析、文本实体抽取 | 支持 | 支持 | 部分支持 |
表格 | 表格预测 | 支持 | - | - |
数据在线标注功能简介
在 BML 中,既支持用户直接上传已标注的数据并用于训练,也支持用户上传未标注数据,并在 BML 中完成数据标注操作。BML 支持的标注类型如下所示:
标注类型 | 说明 | 适用任务类型 |
---|---|---|
单图多标签 | 一张图片可定义为多个标签 | 图像分类 |
矩形框标注 | 图片用矩形框标注需要识别的目标位置 | 物体检测 |
单文本单标签 | 一个文本定义为唯一标签 | 文本分类 |
短文本匹配 | 两个文本标注为相似或不相似 | 短文本匹配 |
数据智能标注功能简介
智能标注即自动标注,通过该功能可以大幅降低标注成本。在 BML 中支持图像和文本类数据的智能标注:
- 图像类:支持物体检测和实例分割两种类型。用户只需要标注少量数据(约占数据集的 30% 左右),即可通过智能标注任务自动完成剩余数据的标注。系统会自动判断自动标注时各图像标签的置信度,对于置信度较低的会作为难例,并由用户手工确认,从而保证整体标注的质量。
- 文本类:支持单标签文本分类。用户只需要提供少量已标注数据,即可通过智能标注任务完成剩余未标注数据的自动标注。自动标注的数据需要人工确认后,才能完成整个标注流程。
数据回流功能简介
BML 支持将模型部署为在线服务,通过数据回流功能可以将在线服务接收的请求数据进行保存。用户可以查看被保存数据的预测结果,以及将保存的数据添加到训练模型的数据集中并用于模型的迭代训练。
数据回流功能,完成了 AI 应用生命周期的闭环,通过初试数据完成模型训练和服务部署,利用新采集的线上数据不断更新模型。通过该方式可以有效的解决线上数据特征漂移的问题。
当前在 BML 中,可以在视觉类应用中使用数据回流功能。
数据集状态说明
- 导入中:当线下大量数据批量导入至平台中时,需要等待几分钟-十几分钟时间,请耐心等待
- 导入失败:最近一次数据导入失败可能有以下几种原因:
-压缩包格式有误:如果导入格式以压缩包格式上传,请检查压缩包内的数据组织的层级结构是否符合要求,请修正后重新上传。
-图片名称与对应标注 json 文件名称无法对应:请检查图片名称与 json 文件是否存在文件名称不一致的情况。
-数据量超过上限:单个用户限制10万数据量,请检查是否超限,如需扩容请提交工单或加入官方QQ群(群号:868826008)联系群管进行扩容。 - 智能标注中:状态为智能标注中的数据集无法删除。