所有文档

          EasyDL定制AI训练平台

          经典版声音分类上传数据集

          目录

          1. 上传数据要求说明
          2. 上传数据集操作介绍

          上传数据要求说明

          这里我们对上传数据的要求不仅是格式上的要求,更重要的是介绍怎样的数据可以更有效提升模型效果

          设计分类

          首先想好分类如何设计,每个分类为你希望识别出的一种结果,如要识别猫狗的叫声,则可以以“猫”、“狗”等分别作为一个分类;如果安防监控通过声音判断是否出现异常状态,可以以“正常”“不异常”设计为两类,或者“正常”“异常原因一”、“异常原因二”、“异常原因三”……设计为多类。

          注意:目前单个模型的上限为1000类,如果要超过这个量级请在百度云控制台内提交工单反馈

          准备数据:

          基于设计好的分类准备音频数据,每个分类需要准备50个音频文件以上,如果想要较好的效果,建议100个起音频文件,如果某些分类的声音具有相似性,需要增加更多音频。

          音频的基本格式要求: 目前支持音频文件 类型为支持wav,mp3,m4a ,音频文件大小限制在4M以内。一个模型的音频总量限制10万个音频文件。

          注意1:训练集音频需要和实际场景要识别的音频环境一致,举例:如果实际场景要识别的声音都是手机采集的,那训练的音频文件也需要同样的场景获得,而不要采用网上随便下载的音频
          注意2:考虑实际应用场景可能有的种种可能性,每个分类的音频需要覆盖实际场景里面可能有的可能性,如噪音干扰、多种可能的采集设备,训练集覆盖的场景越多,模型的泛化能力越强。
          注意3:如果需要寻求第三方数据采集团队协助数据采集,请在百度云控制台内提交工单反馈

          你可能会有的问题:如果训练音频数据无法全部覆盖实际场景要识别的音频,怎么办?

          答:本身模型算法会有一定的泛化能力,尽可能覆盖即可。

          上传数据集操作介绍

          数据集完成创建后,可以在声音分类数据集列表查看已创建的数据集。 点击上传后进入数据集上传页面,有两种上传声音分类数据方式。

          • 单个分类上传
          • 批量上传

          单个分类上传

          选择单个分类上传,需要在下拉框内选择/新建要上传的单个分类名称,如要上传标签为【pig】的音频数据,即可在下拉框中新建【pig】的标签。然后点击添加音频,可选取本地音频文件上传音频数据。

          image.png

          批量上传

          选择批量上传,需要上传本地声音分类压缩包。

          image.png

          注意,压缩包有以下要求:

          • 目前压缩包仅支持.zip格式
          • 压缩包限制5G以内。
          • 压缩包单次上传限制10个以内。
          • 压缩包内的声音分类数据需要按照以下结构进行数据组织,中间的文件夹命名为分类名称,如要上传pig和cat两类音频,文件夹命名分别为【pig】【cat】。
          • 压缩包内的分类名称命名需要定义为字母或数字,若以中文命名可能解析为乱码

          image.png

          数据处理完后的图片示意:

          image.png

          上一篇
          创建数据集
          下一篇
          数据集管理API