文本实体关系抽取数据集上传
所有文档

          EasyDL零门槛AI开发平台

          文本实体关系抽取数据集上传

          在【数据总览】页面,可以看到自己创建的空数据集项目,选中数据集名称,点击对应项目中导入操作。您可以在文本实体关系分类任务的数据集中,上传带有标注信息的数据,和无标注信息的数据。

          image.png

          在数据导入方式选择本地数据集,根据您已有的数据存储格式,选择上传格式,目前对未标注数据提供了三种上传方式,对已标注数据仅提供了一种上传方式,

          未标注数据上传方式:

          • 压缩包方式
          • txt文件
          • Excel文件

          以下分别详细介绍以上三种上传方式:

          以压缩包方式上传

          • 压缩包内每一个txt文件为一个样本,文本文件编码须为UTF-8,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断
          • 压缩包的格式为zip;压缩包最大不超过5G;详见数据样例

          以txt文件上传

          • 文本实体关系抽取数据txt文件中,每一行为一个样本,文本文件的编码格式须为UTF-8,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断,详见数据样例

          以Excel文件上传

          • 如果您上传的文本实体关系抽取数据未Excel文件,那么要求您的Excel文件每行为一个样本,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断。注意,表头作为首行将被系统忽略。
          • 文件格式支持xlsx格式,单次可上传100个文件,详见数据样例

          已标注数据上传方式:

          针对已标注的文本实体关系抽取数据集上传目前本平台仅支持Excel文件格式上传。

          以Excel文件导入

          • 要求上传的Excel文件,首行为表头,表头表示每一列代表的数据类型,依次为“文本内容、实体关系1、实体关系2、..”。其中实体关系内格式为:{实体1位置,实体1类别},{实体2位置,实体2类别},实体关系。每个标注内均以英文逗号间隔,且内容顺序不可变。详见数据样例
          • 第二行起每行为一个样本,每个样本文本内容字符数不得超过512个字符(包括汉字、符号、数字等),超出将报错;
          • 目前Excel文件格式支持xlsx格式,单次可上传100个文件;文本样例如下。
          文本内容 实体关系1
          今年年初,党中央、国务院根据国内外经济形势的变化,及时作出扩大内需、保持经济持续快速增长的重大决策。 {[5,7],ORG},{[9,11],ORG},lead
          上一篇
          数据集创建
          下一篇
          数据去重策略