对于物体检测任务,每一类object都可以计算出其精确率(Precision)和召回率(Recall),在不同阈值下多次计算/试验,每个类都可以得到一条P-R曲线,曲线下的面积就是average precision(AP)的值。“mean”的意思是对每个类的AP再求平均,得到的就是mAP的值。 精确率 对于一个SKU而言,精确率越高,说明模型识别出是这个SKU的所有结果中,正确数量的占比越高。
在查看模型评估结果可能需要思考在当前业务场景精确率与召回率更关注哪个指标,是更希望减少误识别,还是更希望减少误召回。前者更需要关注召回率的指标,后者更需要关注精确率的指标。同时F1-SCORE可以有效关注精确率和召回率的平衡情况,对于希望召回与识别效果兼具的场景,F1-Score越接近1效果越好。
在查看模型评估结果可能需要思考在当前业务场景MOTP与召回率更关注哪个指标,是更希望减少误识别,还是更希望减少误召回。前者更需要关注召回率的指标,后者更需要关注MOTP的指标。同时IDF1-Score可以有效关注MOTP和召回率的平衡情况,对于希望召回与识别效果兼具的场景,IDF1-Score越接近1效果越好。
模型效果评估 模型评估报告 校验指标:仅提供 BLEU-4指标 : Bilingual evaluation understudy,BLEU 的分数取值范围是 0~100%,分数越接近100%,说明生成的句子质量越高。 训练完成后,可以在【我的模型】列表中看到模型效果,以及详细的模型评估报告。 模型校验 实际效果可以在左侧目录中找到【模型校验】功能进行校验,或者发布为接口后测试。
如何提升模型效果 在充分测试模型效果基础上,如果发现模型效果欠佳,建议根据以下顺序分析并提升模型效果。 检查并优化训练数据 首先 检查目前欠佳的模型是否存在训练数据过少 的情况,建议 每个类别的音频量不少于200个 ,如果低于这个量级建议扩充。
是更希望减少误识别,还是更希望减少漏识别。前者更需要关注精确率的指标,后者更需要关注召回率的指标。同时F1-score可以有效关注精确率和召回率的平衡情况,对于希望准确率与召回率兼具的场景,F1-score越接近1效果越好。
是更希望减少误识别,还是更希望减少漏识别。前者更需要关注精确率的指标,后者更需要关注召回率的指标。同时F1-score可以有效关注精确率和召回率的平衡情况,对于希望准确率与召回率兼具的场景,F1-score越接近1效果越好。
这部分模型效果的指标是基于训练数据集,随机抽出部分数据不参与训练,仅参与模型效果评估计算得来。所以 当数据量较少时(如图片数量低于100个),参与评估的数据可能不超过30个,这样得出的模型评估报告效果仅供参考,无法完全准确体现模型效果。 查看模型评估结果时,需要思考在当前业务场景,更关注精确率与召回率哪个指标。是更希望减少误识别,还是更希望减少漏识别。
效果调优 1. 监控数据 您也可以通过视频学习: 运营工具 1 :效果调优 监控数据页面用于查看和分析用户与机器人交互的监控数据,包括点踩数据、未匹配对话、实体收集校验失败、转人工对话。用户可以通过该页面了解机器人的表现,以便进行相应的调整和优化。
效果调优 监控数据 监控数据页面用于查看和分析用户与机器人交互的监控数据,包括点踩数据、未匹配对话、实体收集校验失败、转人工对话。用户可以通过该页面了解机器人的表现,以便进行相应的调整和优化。