所有文档

          EasyDL定制AI训练平台

          专业版视觉任务模型效果评估报告

          目录

          1. 图像分类模型评估报告
          2. 物体检测模型评估报告
          3. 实例分割模型评估报告

          图像分类模型评估报告

          模型评估报告内容说明

          模型训练完成后我们可以在模型列表中看到模型效果及查看模型评估报告的入口。进入模型评估报告页面,我们可以看到整体报告内容中包含以下几个区域内容:
          模型基本信息
          在这个部分可以选择应用类型、训练版本


          整体评估
          在这个部分可以看到模型训练整体的情况说明,包括基本结论、准确率、F1-score、精确率、召回率。这部分模型效果的结果内容是基于训练数据集,随机抽出部分数据不参与训练,仅参与模型效果评估计算得来。所以当数据量较少时(如图片数量低于100个),参与评估的数据可能不超过30个图片,这样得出的模型评估报告效果仅供参考,无法完全准确体现模型效果。

          注意:若想要更充分了解模型效果情况,建议发布模型为API后,通过调用接口测试批量图片数据获取更准确的模型效果。


          详细评估
          在这个部分可以看到上述训练效果背后的原始评估数据。以及不同top结果的准确率效果情况,下面为相关名词解释。

          图像分类名词解释

          准确率

          准确率含义为正确分类的样本数与总样本数之比,这里指的总样本是指从总训练数据中随机抽取部分数据参与模型评估的总样本,在上文截图中,参与训练的图片数200个,实际参与评估的数据为下面详细评估预测表现表格的数据总和,即50个。那么准确率为参与评估的正确数量46/50,结果为92.0%

          F1-Score

          F1-score是指对某类别而言为精确率和召回率的调和平均数,此处为各类别F1-score的平均数。 就某类而言,精确率和召回率体现了该分类的精确率及召回率的平衡情况:

          image.png

          精确率

          精确率是对某类别而言为正确预测为该类别的样本数与预测为该类别的总样本数之比,此处为各类别精确率的平均数。如果精确率比较低,有一定可能原因为不同类别效果存在差异所致,请检查下不同类型样本量是否均衡。

          召回率

          召回率是指对某类别而言为正确预测为该类别的样本数与该类别的总样本数之比,此处为各类别召回率的平均数。

          image.png

          top1、top2、top…5

          是指对于每一个评估的图片文件,模型会给根据置信度高低,依次给出top1-top5的识别结果,其中top1置信度最高,top5的置信度最低。那么top1的准确率值是指对于评估标准为“top1结果识别为正确时,判定为正确”给出准确率。top2准确率值是指对于评估标准为“top1或者top2只要有一个命中正确的结果,即判定为正确”给出的准确率。……以此类推。

          image.png

          不同分类的F1-score 这个部分很重要,如果不同分类的F1-score存在差异很大的情况下,整体模型效果有被低精度的分类效果拉低的可能。建议检查训练数据中不同标签的目标数情况,建议不同分类的目标数尽可能均衡。 image.png

          物体检测模型评估报告

          模型评估报告内容说明

          模型训练完成后我们可以在模型列表中看到模型效果及查看模型评估报告的入口。进入模型评估报告页面,我们可以看到整体报告内容中包含以下几个区域内容:
          模型基本信息
          在这个部分可以选择应用类型、训练版本


          整体评估
          在这个部分可以看到模型训练整体的情况说明,包括基本结论、准确率、F1-score、精确率、召回率。这部分模型效果的结果内容是基于训练数据集,随机抽出部分数据不参与训练,仅参与模型效果评估计算得来。所以当数据量较少时(如图片数量低于100个),参与评估的数据可能不超过30个图片,这样得出的模型评估报告效果仅供参考,无法完全准确体现模型效果。

          注意:若想要更充分了解模型效果情况,建议发布模型为API后,通过调用接口测试批量图片数据获取更准确的模型效果。

          物体检测名词解释

          mAP

          mAP(mean average precision)是物体检测(Object Detection)算法中衡量算法效果的指标。对于物体检测任务,每一类object都可以计算出其精确率(Precision)和召回率(Recall),在不同阈值下多次计算/试验,每个类都可以得到一条P-R曲线,曲线下的面积就是average

          F1-Score

          F1-score是指对某类别而言为精确率和召回率的调和平均数,此处为各类别F1-score的平均数。 就某类而言,精确率和召回率体现了该分类的精确率及召回率的平衡情况:

          image.png

          精确率

          经比较F1-score最高的阈值0.3下的结果。精确率为该阈值下正确预测的物体数与预测物体总数之比

          召回率

          经比较F1-score最高的阈值0.3下的结果。召回率为该阈值下正确预测的物体数与真实物体数之比

          image.png

          阈值

          阈值,是正确结果的判定标准,例如阈值是0.6,置信度大于0.6的识别结果会被当作正确结果返回。每个物体检测模型训练完毕后会给出建议阈值,建议后续在模型校验及正是调用服务过程中,阈值参数按照模型评估报告中的建议阈值进行配置。

          image.png

          不同标签的平均精度

          这个部分很重要,通过查看不同标签的平均精度可以有效观测不同标签的精度对比。如果存在精度差异很大的情况下,整体模型效果有被低精度的标签效果拉低的可能。建议检查训练数据中不同标签的目标数情况,建议不同标签的目标数尽可能均衡。

          image.png

          实例分割模型评估报告

          模型评估报告内容说明

          模型训练完成后我们可以在模型列表中看到模型效果及查看模型评估报告的入口。进入模型评估报告页面,我们可以看到整体报告内容中包含以下几个区域内容:
          模型基本信息
          在这个部分可以选择应用类型、训练版本


          整体评估
          在这个部分可以看到模型训练整体的情况说明,包括基本结论、准确率、F1-score、精确率、召回率。这部分模型效果的结果内容是基于训练数据集,随机抽出部分数据不参与训练,仅参与模型效果评估计算得来。所以当数据量较少时(如图片数量低于100个),参与评估的数据可能不超过30个图片,这样得出的模型评估报告效果仅供参考,无法完全准确体现模型效果。

          注意:若想要更充分了解模型效果情况,建议发布模型为API后,通过调用接口测试批量图片数据获取更准确的模型效果。

          实例分割名词解释

          mAP

          mAP(mean average precision)是实例分割(Instance Segmentation)算法中衡量算法效果的指标。对于实例分割任务,每一类object都可以计算出其精确率(Precision)和召回率(Recall),在不同阈值下多次计算/试验,每个类都可以得到一条P-R曲线,曲线下的面积就是average

          F1-Score

          F1-score是指对某类别而言为精确率和召回率的调和平均数,此处为各类别F1-score的平均数。 就某类而言,精确率和召回率体现了该分类的精确率及召回率的平衡情况:

          image.png

          精确率

          经比较F1-score最高的阈值0.3下的结果。精确率为该阈值下正确预测的物体数与预测物体总数之比

          召回率

          经比较F1-score最高的阈值0.3下的结果。召回率为该阈值下正确预测的物体数与真实物体数之比

          image.png

          阈值

          阈值,是正确结果的判定标准,例如阈值是0.6,置信度大于0.6的识别结果会被当作正确结果返回。每个实例分割模型训练完毕后会给出建议阈值,建议后续在模型校验及正是调用服务过程中,阈值参数按照模型评估报告中的建议阈值进行配置。

          image.png

          不同标签的平均精度

          这个部分很重要,通过查看不同标签的平均精度可以有效观测不同标签的精度对比。如果存在精度差异很大的情况下,整体模型效果有被低精度的标签效果拉低的可能。建议检查训练数据中不同标签的目标数情况,建议不同标签的目标数尽可能均衡。

          image.png

          上一篇
          训练高级配置
          下一篇
          视觉模型部署