所有文档

          EasyDL定制AI训练平台

          经典版文本分类数据集上传

          您可以在文本分类单标签的数据集中,上传带有标注信息的数据,和无标注信息的数据。您可以根据自己的情况,选择上传方式,目前平台提供上传方式有:

          • 上传Excel文件
          • 上传TXT文本
          • 上传压缩包
          • 通过API导入

          下面分别为您介绍几种上传方式

          以Excel文件上传

          • Excel文件内数据格式要求为:每行是一个样本,每个数据文本内容的字符数建议不超过512个,超出将被截断。
          • 文件类型支持xlsx格式,单次上传限制100个文件
          • 请确保您上传的样本在sheet1中,且数据都在首列。注意,首行作为表头将被系统忽略

          以压缩包方式上传

          压缩包上传时,可以使用两种格式组织压缩包的内容:a、以文件夹命名样本的标签;b、用json文件标记分类

          • 一个文本文件保存一个样本,文本文件的编码方式:UTF-8,每个文本文件最长不能超过512个汉字(字符)
          • 压缩包仅支持zip格式;大小需要在5GB以内;

          对于a、以文件夹命名作为样本的标签:如果您上传的是有标注信息的数据,文件夹的名称将作为标签名称,文件夹下的每一个文本文件,将作为样本导入到此标签下;如果您上传的是无标注信息的数据,只需将文本文件打包即可

          对于b、用json文件标记分类:如果您上传的是有标注信息的数据,每一个文本文件需对应一个json文件,且两个文件名相同。

          以TXT文本文件上传

          • 文本文件内数据格式要求为"文本内容\n"(即每行一个未标注样本,使用回车换行),每一行表示一组数据,每组数据的字符数建议不超过4096个字符,超出将被截断。
          • 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

          通过API方式导入

          您可以通过API导入文档,查看上传数据的方式

          上一篇
          创建数据集
          下一篇
          数据集管理API