所有文档

          EasyDL定制AI训练平台

          文本分类数据导入与标注

          1. 创建数据集

          您可以在控制面板中,选择“数据管理/标注”并点击按钮“创建数据集”,对话框中选择数据类型为“文本”,标注类型选择“文本分类”,当前的文本分类的数据标注模板默认为单文本单标签格式。

          image.png

          2.导入未标注文本数据

          进入到新创建的文本分类数据集中,如果您手中的数据是未标注数据,可以导入“未标注”中。平台提供两种方式导入数据,一种是从本地上传,一种是已有数据集导入

          通过已有数据集导入时,平台将为您筛选出类型为文本分类的数据集。

          本地上传,包括三种上传方式,分别为「上传文本」、「上传压缩包」、「API上传」

          通过文本上传时,需注意:

          1. 文本文件内数据格式要求为"文本内容\n"(即每行一个未标注样本,使用回车换行),每一行表示一组数据,每组数据的字符数建议不超过512个,超出将被截断
          2. 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

          相关的数据样例可在上传窗口内下载数据样例查看

          通过压缩包上传时,需注意:

          1. 压缩包内的一个文本文件将作为一个样本上传
          2. 压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8

          相关的数据样例可在上传窗口内下载数据样例查看

          API导入时,可参考文档

          文本标注

          1. 上传未标注文本后,进入到标注页面,您可以逐一查看每一篇未标注的文本,如下图:

          image.png

          1. 设定分类对应的标签

          1. 创建标签后,即可以进行对文本的标注,在文本的上方标签字段处,会显示对应的分类标签,完成标注

          image.png

          3.导入已标注文本数据

          如果您手中的数据为已经标注好的数据,可以导入到“已标注”中。平台提供两种方式导入数据,一种是从本地上传,一种是从线上已有数据集导入。

          通过已有数据集导入时,平台将为您筛选出类型为文本分类的数据集。

          本地上传,包括三种上传方式,分别为「上传文本」、「上传压缩包」、「API上传」

          通过文本上传时,需注意:

          1. 文本分类的标注数据格式要求为"文本内容\t标注标签\n"(即每行一个未标注样本与一个标注标签,中间使用tab键间隔,每组数据使用回车换行),详见数据样例每一行表示一组数据,每组数据字符数不超过512个,超出将被截断
          2. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件

          相关的数据样例可在上传窗口内下载数据样例查看

          通过压缩包上传时,需注意:

          1. 上传已标注文件要求格式为zip格式压缩包,同时压缩包大小在5GB以内,文件编码仅支持UTF-8
          2. 压缩包内仅支持单个文本文件(txt)及同名的json格式标注文件的上传,可传多组样本,详细请见示例压缩包

          相关的数据样例可在上传窗口内下载数据样例查看

          image.png

          API导入时,可参考文档进行上传

          上一篇
          实例分割数据导入与标注
          下一篇
          数据标注说明