上传数据集
更新时间:2022-05-06
您可以上传带有标注信息的数据,和无标注信息的数据。您可以根据自己的情况,选择上传方式,目前平台提供上传方式有:
- 上传Excel文件
- 上传TXT文本
- 上传压缩包
- 通过API导入
下面分别为您介绍几种上传方式
以Excel文件上传
- Excel文件内数据格式要求为:每行是一个样本,使用第一列和第二列分别作为需要计算相似度的两个文本,第三列为相似度标签(如果导入无标注数据,此列无数据)。第一列和第二列的文本内容的字符数建议不超过512个,超出将被截断。
- 文件类型支持xlsx格式,单次上传限制100个文件
- 请确保您上传的样本在sheet1中,且数据都在首列。注意,首行作为表头将被系统忽略
以压缩包方式上传
- 压缩包格式为.zip格式,单个压缩包限制5G以内
- 压缩包内文本文件类型为txt,每个txt每行数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,标注结果仅用1/0表示,1代表相似,0代表不相似。一行表示一组数据,每个文本可以有多行短文本组数据,每组数据字符数建议不超过1024个字符(约512个汉字)
以TXT文本文件上传
- 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件。
- 短文本相似度的数据格式要求为“文本内容1\t文本内容2\t标注结果\n”,一行表示一组数据,每组数据字符数建议不超过1024个字符(约512个汉字),可上传多个文本文件
通过API方式导入
您可以通过API导入文档,查看上传数据的方式