所有文档

          EasyDL定制AI训练平台

          创建数据集

          在训练之前需要在【数据集管理】中创建数据集,输入数据集名称即可创建一个空数据集。每个数据集里面可以包含有多个分类标签的文本数据,每个样本可对应多个标签。创建数据集的页面如下图:

          image.png

          如何准备文本分类(多标签)的数据集?

          ① 设计分类

          设计整个数据集的分类体系,即抽象出文本所需识别的标签,标签也是你希望识别出的结果。例如娱乐新闻的内容类型,则可以以“男星”、“大陆”、“港台”、“童星”等分别作为标签体系;

          注意:目前单个模型的标签上限为1000个,如果要超过这个量级请在百度云控制台内提交工单反馈

          ② 准备数据:

          基于设计好的分类标签准备文本数据,每个标签建议至少需要准备50个以上的样本,如果想要较好的效果,建议1000-10000个文本样本,如果某些分类的文本具有相似性,需要增加更多文本。

          注意1:训练集文本需要和实际场景要识别的文本内容的业务范围一致,且标签对应文本的数量分布一致;如训练集的业务范围是科技媒体文章的分类,而预计线上对应的场景或业务是娱乐文章的分类

          注意2:考虑实际应用场景有多种可能性,每个场景都需要准备相对应的训练数据,训练集若能覆盖的场景越多,模型的泛化能力则越强。

          注意3:如果需要寻求第三方数据采集团队协助数据采集,请在百度云控制台内提交工单反馈

          你可能会问:我无法将所有的场景都穷举,也无法将每一个场景都准备想对应的训练数据,该怎么办?

          答:本身模型算法会有一定的泛化能力,通过对每一个业务准备对应的训练样本,模型可在一定程度上泛化理解业务场景。不过建议您对高频的业务场景尽量做到覆盖,并通过线上bad case来进行训练数据的优化。

          上一篇
          文本分类(多标签)介绍
          下一篇
          数据上传