创建数据集并导入
更新时间:2022-05-06
创建数据集
在训练模型之前,需要在【数据总览】里面“创建数据集”。需输入数据集名称、选择相应的标注模版、选择数据去重策略,即可创建一个空数据集。
数据自动去重即平台对您上传的数据进行重复样本的去重。建议创建数据集时选择「数据自动去重」
导入无标注数据
创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。
您可以使用3种方案上传数据,分别为:
- 本地导入
- BOS目录导入
- 分享链接导入
本地导入
您可以通过以下三种方式进行本地数据的导入:
- 以压缩包的方式上传
- 以TXT文本文件方式上传
- 以Excel文件的方式上传
通过压缩包上传时,需注意:
- 压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8
- 每组数据的数建议不超过512个字符,超出将被截断
通过TXT文本上传时,需注意:
- 文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断
- 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,最多可上传100万个文件
通过Excel文件上传时,需注意:
- Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断
- 文件格式支持xlsx格式,单次可上传100个文件
BOS目录导入
需选择Bucket地址与对应的文件夹地址。
请确保将全部文本已通过txt文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入。
分享链接导入
需输入链接地址。分享链接导入的要求如下:
- 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接
导入有标注数据
创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。
您可以使用本地上传的方案上传数据。 您可以通过以下三种方式进行本地数据的导入:
- 以Excel文件的方式上传
- 以API的形式导入
通过Excel文件上传时,需注意:
- Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断
- 文件格式支持xlsx格式,单次可上传100个文件
通过API上传时,需注意:
- 可参考以下文档:实体抽取API数据管理
什么是实体类别?
实体类别(Entity Type)是指某类事物的集合,每一类数据对象的个体称为实体,如人/角色(例如学生),对象(例如发票),概念(例如简介)或事件(例如交易)。实体类别名标签名由数字、中英文、中/下划线组成,长度上限256字符