文本分类数据集上传
所有文档

          EasyDL零门槛AI开发平台

          文本分类数据集上传

          在【数据总览】页面,可以看到自己创建的空数据集项目,点击对应项目中上传操作。您可以在文本分类单标签的数据集中,上传带有标注信息的数据,和无标注信息的数据。 image.png

          在数据导入方式选择本地数据集,根据您已有的数据存储格式,选择上传方式,目前平台提供上传方式有:

          • 上传Excel文件
          • 上传TXT文本
          • 上传压缩包
          • 通过API导入

          下面分别为您介绍几种上传方式

          * 以Excel文件上传

          • Excel文件内数据格式要求为:每行是一个样本详见数据样例,如果您上传的为有标注数据,则每行的样本包含两列,第一列为数据文本内容,第二列为文本对应标签,详见数据样例;如果您上传的为无标注数据,则每行样本仅包含第一列数据文本内容,每个数据样本文本内容的字符数建议不超过4096个,超出将被截断。
          • 文件类型支持xlsx格式,单次上传文件个数上限为100个
          • 请确保您上传的样本在sheet1中,注意,首行作为表头将被系统忽略

          * 以压缩包方式上传

          如果您想上传的数据为压缩包,请根据您的数据是否已标注,按照以下格式要求完成数据上传。

          无标注数据

          • 压缩包内包含上传的所有文本数据,每一个文本文件将作为一个样本上传,详见示例压缩包
          • 压缩包格式为.zip格式,压缩包内文件类型支持txt,文件编码仅支持UTF-8

          有标注数据

          • 压缩包格式为.zip格式,同时压缩包大小在5GB以内,文本编码仅支持UTF-8,每个文本文件最长不能超过4096个字符
          • 标注文件中标签由数字、中英文、中/下划线组成,长度上限256字符。

          有标注数据可以使用以下两种格式组织压缩包的内容:

          (1)以文件夹命名样本的标签:压缩包内按照文本类别数量分为多个文件夹,以文件夹的名称作为文本类别标签,文件夹下的所有txt文件作为样本,详细请见示例压缩包

          (2)用json文件标记分类:压缩包内仅支持单个文本文件(txt)及同名的json格式标注文件的上传,可传多组样本,详细请见示例压缩包

          以TXT文本文件上传

          • 无标注数据文本文件内数据格式要求为"文本内容\n"(即每行一个未标注样本,使用回车换行),详见数据样例。有标注数据中文本文件内数据格式要求为"文本内容\t标签\n"(即每行一个标注样本,使用tab键将文本内容与标签分开,使用回车换行),详见数据样例。每一行表示一组数据,每组数据的字符数建议不超过4096个字符,超出将被截断。
          • 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

          通过API方式导入

          您可以通过API导入文档,查看上传数据的方式

          上一篇
          文本分类数据集创建
          下一篇
          文本分类数据集管理API