创建数据集并导入
更新时间:2022-05-06
1.创建数据集
- 选择【EasyDate数据服务】目录下数据总览,点击“创建数据集”。
- 输入数据集名称,选择数据集属性:是否对数据进行去重操作,详细方法见数据去重策略。
- 点击完成,在数据总览目录下可以看到生成一个空数据集项目。
2.导入未标注文本数据
点击【导入】进入到新创建的评论观点抽取数据集中,平台暂只支持上传无标注信息的数据。
导入方式,分别为「本地导入」、「BOS目录导入」、「分享链接导入」、「平台已有数据集」;
通过本地导入时,可通过excel文件、TXT文件、压缩包形式上传
- 通过文本上传时,需注意:
文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断
文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,最多可上传100万个文本文件。
- 通过压缩包上传时,需注意:
压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8。
每组数据的字数建议不超过512个字符,超出将被截断。
- 通过Excel文件上传时,需注意:
Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过512个字符,超出将被截断
文件格式支持xlsx格式,单次可上传100个文件。
通过BOS目录导入格式要求
请确保将全部文本已通过txt文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入
分享链接导入格式要求
请确保将全部文本文件保存至同一压缩包,压缩包仅支持zip格式,压缩前源文件大小限制5G以内;仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接
通过平台已有数据集导入
直接点选您需要的数据集即可导入。
其他:暂不支持API接口上传服务