文本实体关系抽取数据集上传
更新时间:2020-12-16
在【数据总览】页面,可以看到自己创建的空数据集项目,选中数据集名称,点击对应项目中导入操作。您可以在文本实体关系分类任务的数据集中,上传带有标注信息的数据,和无标注信息的数据。
在数据导入方式选择本地数据集,根据您已有的数据存储格式,选择上传格式,目前对未标注数据提供了三种上传方式,对已标注数据仅提供了一种上传方式,
未标注数据上传方式:
- 压缩包方式
- txt文件
- Excel文件
以下分别详细介绍以上三种上传方式:
以压缩包方式上传
- 压缩包内每一个txt文件为一个样本,文本文件编码须为UTF-8,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断
- 压缩包的格式为zip;压缩包最大不超过5G;详见数据样例
以txt文件上传
- 文本实体关系抽取数据txt文件中,每一行为一个样本,文本文件的编码格式须为UTF-8,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断,详见数据样例。
以Excel文件上传
- 如果您上传的文本实体关系抽取数据未Excel文件,那么要求您的Excel文件每行为一个样本,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断。注意,表头作为首行将被系统忽略。
- 文件格式支持xlsx格式,单次可上传100个文件,详见数据样例。
已标注数据上传方式:
针对已标注的文本实体关系抽取数据集上传目前本平台仅支持Excel文件格式上传。
以Excel文件导入
- 要求上传的Excel文件,首行为表头,表头表示每一列代表的数据类型,依次为“文本内容、实体关系1、实体关系2、..”。其中实体关系内格式为:{实体1位置,实体1类别},{实体2位置,实体2类别},实体关系。每个标注内均以英文逗号间隔,且内容顺序不可变。详见数据样例。
- 第二行起每行为一个样本,每个样本文本内容字符数不得超过512个字符(包括汉字、符号、数字等),超出将报错;
- 目前Excel文件格式支持xlsx格式,单次可上传100个文件;文本样例如下。
文本内容 | 实体关系1 |
---|---|
今年年初,党中央、国务院根据国内外经济形势的变化,及时作出扩大内需、保持经济持续快速增长的重大决策。 | {[5,7],ORG},{[9,11],ORG},lead |