文本分类数据导入与标注
更新时间:2021-02-26
1. 创建数据集
您可以在左侧目录导航栏中选择【数据总览】并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“文本分类”,当前的文本分类的数据标注模板默认为单文本单标签格式。
2.导入未标注文本数据
进入到新创建的文本分类数据集中,如果您手中的数据是未标注数据,可以导入“未标注”中。平台提供两种方式导入数据,一种是从本地上传,一种是已有数据集导入
通过已有数据集导入时,平台将为您筛选出类型为文本分类的数据集。
本地上传,包括三种上传方式,分别为「上传文本」、「上传压缩包」、「API上传」
通过文本上传时,需注意:
- 文本文件内数据格式要求为"文本内容\n"(即每行一个未标注样本,使用回车换行),每一行表示一组数据,每组数据的字符数建议不超过512个,超出将被截断
- 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件
相关的数据样例可在上传窗口内下载数据样例查看
通过压缩包上传时,需注意:
- 压缩包内的一个文本文件将作为一个样本上传
- 压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8
相关的数据样例可在上传窗口内下载数据样例查看
API导入时,可参考文档
文本标注
- 上传未标注文本后,进入到标注页面,您可以逐一查看每一篇未标注的文本,如下图:
- 设定分类对应的标签
- 创建标签后,即可以进行对文本的标注,在文本的上方标签字段处,会显示对应的分类标签,完成标注
3.导入已标注文本数据
如果您手中的数据为已经标注好的数据,可以导入到“已标注”中。平台提供两种方式导入数据,一种是从本地上传,一种是从线上已有数据集导入。
通过已有数据集导入时,平台将为您筛选出类型为文本分类的数据集。
本地上传,包括三种上传方式,分别为「上传文本」、「上传压缩包」、「API上传」
通过文本上传时,需注意:
- 文本分类的标注数据格式要求为"文本内容\t标注标签\n"(即每行一个未标注样本与一个标注标签,中间使用tab键间隔,每组数据使用回车换行),详见数据样例每一行表示一组数据,每组数据字符数不超过512个,超出将被截断
- 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件
相关的数据样例可在上传窗口内下载数据样例查看
通过压缩包上传时,需注意:
- 上传已标注文件要求格式为zip格式压缩包,同时压缩包大小在5GB以内,文件编码仅支持UTF-8
- 压缩包内仅支持单个文本文件(txt)及同名的json格式标注文件的上传,可传多组样本,详细请见示例压缩包
相关的数据样例可在上传窗口内下载数据样例查看
API导入时,可参考文档进行上传