所有文档

          EasyDL定制AI训练平台

          数据上传

          您可以使用3种方案来上传文本分类(多标签)的数据,三种方式为:

          1. 以压缩包的方式上传
          2. 以TXT文本文件方式上传
          3. 以Excel文件的方式上传

          您可以上传带有标注信息的数据或不带标注信息的数据,下面将对以上四种方式分别介绍。

          1、以压缩包方式上传

          • 文本文件的编码方式:UTF-8,每个文本文件最长不能超过4096个汉字(字符)
          • 压缩包仅支持zip格式;大小需要在5GB以内;

          注意,如果您上传的数据是带有标注信息的数据,则需要在压缩包里的创建文件夹,文件夹名即是标签名,只能包含数字/字母/下划线,一个样本有多个标签,则从属于多个文件夹。例如“北京明天气温骤降,请注意保暖”的文本文件同时存在于“北京本地”和“天气”两个文件夹下。

          2、以TXT文本文件上传

          • 每行样本最长不能超过4096个汉字(字符),文件编码方式:UTF-8
          • txt文件内的标注数据格式要求为"文本内容\t标注标签\t...标注标签\t\n"(\t代表tab制表符,\n代表回车换行),如果是无标注信息的数据,则每行只有文本内容即可

          3、以Excel文件上传

          • Excel文件内数据格式要求为:使用第一列作为待标注文本,第二列作为标注信息列(此列仅支持数字或字母),每行是一组样本,每组数据文本内容的字符数建议不超过4096,超出将被截断。
          • 文件类型支持xlsx格式,单次上传限制100个文件
          上一篇
          创建数据集
          下一篇
          数据去重策略