声音分类模型效果评估报告说明
模型评估报告内容说明
模型训练完成后我们可以在模型列表中看到模型效果及查看模型评估报告的入口。进入模型评估报告页面,我们可以看到整体报告内容中包含以下几个区域内容:
模型基本信息
在这个部分可以选择应用类型(声音分类目前仅支持云服务)、训练版本、相应版本提交的音频数量、相应版本提交的分类数量。
整体评估
在这个部分可以看到模型训练整体的情况说明,包括基本结论、准确率、F1-score、精确率、召回率。这部分模型效果的结果内容是基于训练数据集,随机抽出部分数据不参与训练,仅参与模型效果评估计算得来。所以当数据量较少时(如音频数量低于100个),参与评估的数据可能不超过30个音频,这样得出的模型评估报告效果仅供参考,无法完全准确体现模型效果。
注意:若想要更充分了解模型效果情况,建议发布模型为API后,通过调用接口测试批量音频数据获取更准确的模型效果。
详细评估
在这个部分可以看到上述训练效果背后的原始评估数据。以及不同top结果的准确率效果情况,下面为相关名词解释。
准确率
准确率含义为正确分类的样本数与总样本数之比,这里指的总样本是指从总训练数据中随机抽取部分数据参与模型评估的总样本,在上文截图中,参与训练的音频数200个,实际参与评估的音频为下面详细评估预测表现表格的数据总和,即50个。那么准确率为参与评估的正确数量46/50,结果为92.0%
F1-Score
F1-score是指对某类别而言为精确率和召回率的调和平均数,此处为各类别F1-score的平均数。 就某类而言,精确率和召回率体现了该分类的精确率及召回率的平衡情况:
精确率
精确率是对某类别而言为正确预测为该类别的样本数与预测为该类别的总样本数之比,此处为各类别精确率的平均数。如果精确率比较低,有一定可能原因为不同类别效果存在差异所致,请检查下不同类型样本量是否均衡。
召回率
召回率是指对某类别而言为正确预测为该类别的样本数与该类别的总样本数之比,此处为各类别召回率的平均数。
top1、top2、top…5
是指对于每一个评估的音频文件,模型会给根据置信度高低,依次给出top1-top5的识别结果,其中top1置信度最高,top5的置信度最低。那么top1的准确率值是指对于评估标准为“top1结果识别为正确时,判定为正确”给出准确率。top2准确率值是指对于评估标准为“top1或者top2只要有一个命中正确的结果,即判定为正确”给出的准确率。……以此类推。
如何解读模型效果
在看模型评估报告结果中,首要需要关注下详细评估中的预测表现,这里可以看到所有评估报告的数据是基于什么量级进行计算的。当整体参与评估的数量较少时,所有数值可能无法真实反映模型效果。
在查看模型评估结果可能需要思考在当前业务场景精确率与召回率更关注哪个指标,是更希望减少误识别,还是更希望减少误召回。前者更需要关注召回率的指标,后者更需要关注精确率的指标。同时F1-SCORE可以有效关注精确率和召回率的平衡情况,对于希望召回与识别效果兼具的场景,F1-Score越接近1效果越好。