所有文档

          EasyDL定制AI训练平台

          创建文本实体抽取数据集并导入

          1. 创建数据集

          您可以在左侧导航栏中中,选择“数据总览”并点击主内容区域的按钮「创建数据集」,选择数据类型为“文本”,标注类型选择“文本实体抽取”。标注模板中使用默认选项”文本实体抽取“。

          image.png

          2.导入未标注文本数据

          进入到新创建的文本实体抽取数据集中。如果您手中的数据是未标注数据,可以选择数据标注状态为“无标注信息”。平台暂不支持上传有标注信息的数据。

          image.png

          本地上传,包括三种上传方式,分别为「上传TXT文本」、「上传压缩包」、「上传Excel」;

          通过文本上传时,需注意:

          文本文件内数据格式要求为"文本内容\n"(即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过4096个字符(约2000个字),超出将被截断

          文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件

          通过压缩包上传时,需注意:

          压缩包内的一个文本文件将作为一个样本上传。压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8。

          每组数据的数建议不超过4096个字符(约2000个字),超出将被截断

          通过Excel文件上传时,需注意:

          Excel文件内首行为表头,每行为一个样本,每个样本字符数不得超过4096个字符(约2000个字),超出将被截断

          文件格式支持xlsx格式,单次可上传100个文件

          上一篇
          文本实体抽取创建模型
          下一篇
          经典版文本实体抽取数据标注