上传数据集
所有文档

          EasyDL零门槛AI开发平台

          上传数据集

          您可以上传带有标注信息的数据,和无标注信息的数据。您可以根据自己的情况,选择上传方式,目前平台提供上传方式有:

          • 上传Excel文件
          • 上传TXT文本
          • 上传压缩包
          • 通过API导入

          下面分别为您介绍几种上传方式

          以Excel文件上传

          • Excel文件内数据格式要求为:每行是一个样本,使用第一列和第二列分别作为需要计算相似度的两个文本,第三列为相似度标签(如果导入无标注数据,此列无数据)。第一列和第二列的文本内容的字符数建议不超过512个,超出将被截断。
          • 文件类型支持xlsx格式,单次上传限制100个文件
          • 请确保您上传的样本在sheet1中,且数据都在首列。注意,首行作为表头将被系统忽略

          以压缩包方式上传

          • 压缩包格式为.zip格式,单个压缩包限制5G以内
          • 压缩包内文本文件类型为txt,每个txt每行数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,标注结果仅用1/0表示,1代表相似,0代表不相似。一行表示一组数据,每个文本可以有多行短文本组数据,每组数据字符数建议不超过1024个字符(约512个汉字)

          以TXT文本文件上传

          • 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件。
          • 短文本相似度的数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,一行表示一组数据,每组数据字符数建议不超过1024个字符(约512个汉字),可上传多个文本文件

          通过API方式导入

          您可以通过API导入文档,查看上传数据的方式

          上一篇
          短文本相似度简介
          下一篇
          短文本相似度API数据上传