所有文档

          EasyDL定制AI训练平台

          经典版文本分类数据集创建

          在训练之前需要在【数据集管理】中创建数据集,输入数据集名称即可创建一个空数据集。每个数据集里面可以包含有多个分类标签的文本数据,每个样本对应一个标签。

          ① 设计分类

          首先想好分类如何设计,每个分类为你希望识别出的一种结果,如要识别新闻的内容类型,则可以以“科技”、“体育”、“农业”等分别作为一个分类标准;如果审核场景中通过文本判断是否出现广告,可以以“正常”、“不正常”设计为两类,或者“正常”、“异常原因一”、“异常原因二”、“异常原因三”……设计为多类。

          注意:目前单个模型的上限为1000类,如果要超过这个量级请在百度云控制台内提交工单反馈

          ② 准备数据:

          基于设计好的分类准备文本数据,每个分类建议至少需要准备50个文本文件以上,如果想要较好的效果,建议10000个起文本文件,如果某些分类的文本具有相似性,需要增加更多文本。

          文本的基本格式要求: 目前支持文本文件类型为支持txt,文本文件大小限制长度最大4096 UTF-8字符。一个模型的文本总量限制10万个文本文件。

          注意1:训练集文本需要和实际场景要识别的文本环境一致

          注意2:考虑实际应用场景可能有的种种可能性,每个分类的文本需要覆盖实际场景里面可能会有的可能性,训练集若能覆盖的场景越多,模型的泛化能力则越强。

          注意3:如果需要寻求第三方数据采集团队协助数据采集,请在百度云控制台内提交工单反馈

          你可能会有的问题:如果训练文本数据无法全部覆盖实际场景要识别的文本,怎么办?

          答:本身模型算法会有一定的泛化能力,尽可能覆盖即可。

          上一篇
          文本分类(单标签)介绍
          下一篇
          上传数据集