查看与管理自动评估任务
目录
对生成式大模型的输出效果、计算性能进行全方位评价,提供面向事实类或开放性问答的不同打分模式;当前支持文本类生成模型,暂不支持图像或跨模态生成模型。 登录到本平台,在左侧功能列选择模型评估,进入自动评估主任务界面。
评估任务筛选与搜索
时间筛选
您可以在评估任务列表右上角使用时间组件按照「年月日」对任务进行筛选。
任务搜索框
您可以使用搜索组件对任务进行搜索,点击搜索框头部可以切换搜索维度。
目前支持任务名称/ID、评估对象、基础模型版本三种搜索维度,鼠标hover搜索框头部的问号支持弹窗显示具体的使用提示。
搜索维度 | 默认输入栏文案 | 搜索框头部hover提示 |
---|---|---|
任务名称/ID | 请输入任务名称/ID搜索 | 评估对象支持按照模型名称(包含BOS和非平台模型结果集)模糊搜索,按照模型版本ID、结果集ID精确搜索 |
评估对象 | 请输入评估对象搜索 | 支持按照任务名称模糊搜索、按任务ID精确搜索(任务状态为「编辑中」的任务不支持搜索) |
基础模型版本 | 请输入基础模型版本搜索 | 支持按照基础模型版本名称模糊搜索(任务状态为「编辑中」的任务不支持搜索) |
任务列表表头筛选
在任务列表中,部分表头支持筛选
当前可支持筛选的表头和筛选项
表头名称 | 筛选项 |
---|---|
任务状态 | 全选、已完成、部分完成、已失败、排队中、进行中、推理中、编辑中 |
评估对象 | 全选、结果集、基于模型 |
创建时间 | 支持按照创建时间倒序、正序排列 |
打分模式 | 全选、自动规则打分、自动裁判员打分、自动规则打分+自动裁判员打分 |
查看自动评估任务详情
您可以点击任务名称查看评估任务的详细内容。
查看评估报告
当评估任务状态为“已完成”时,您可以点击操作列的“查看评估报告”按钮,查看详细的评估信息。
自动规则打分指标
指标名称 | 指标说明 |
---|---|
准确率 (%) | 规则打分模式下,忽略停用词后,正确预测(标注与预测完全匹配)的样本数与总样本数的比例。 |
F1分数 (%) | 规则打分模式下,忽略停用词后,精确率和召回率的调和平均数。 |
ROUGE-1 (%) | 忽略停用词后,将模型生成的结果和标准结果按unigram拆分后,计算出的召回率。 |
ROUGE-2 (%) | 忽略停用词后,将模型生成的结果和标准结果按bigram拆分后,计算出的召回率。 |
ROUGE-L (%) | 忽略停用词后,衡量了模型生成的结果和标准结果的最长公共子序列,并计算出召回率。 |
BLEU-4 (%) | 忽略停用词后,用于评估模型生成的句子和实际句子的差异的指标,值为unigram,bigram,trigram,4-grams的加权平均。 |
格式遵从性 | 检测模型回答是否遵从JSON格式。 |
语义相似度 | 该指标融合了Exact_match和MAUVE两个语义相似度指标。Exact_match:比较模型预测的文本与参考文本是否完全相同。MAUVE:通过计算Embedding向量空间的KL散度得到,取值范围0-1,值越高表示文本相似度越高;指标计算耗时可能较长,请耐心等待。 |
注释:
Ⅰ) unigram:指将句子或文本中的每个单词都单独作为一个基本单元,不考虑单词之间的顺序。
Ⅱ) bigram:指将句子或文本中的每个相邻的单词对都作为一个基本单元,用于描述两个单词之间的顺序关系。
Ⅲ) trigram:指将句子或文本中的每个相邻的三个单词作为一个基本单元,用于描述三个单词之间的顺序关系。
Ⅳ) 4-grams:指将句子或文本中的每个相邻的四个单词作为一个基本单元,用于描述四个单词之间的顺序关系。
Ⅴ) 最长公共子序列:指两个或多个字符串最长的子序列,这些子序列在每个字符串中都存在,且它们的顺序相同。
自动裁判员打分指标
指标名称 | 指标说明 |
---|---|
事实性错误 | 检测模型回答与常识、客观理论、知识或信息等一致性。 |
情感倾向性 | 检测模型回答中传达的情绪基调。 |
语义连贯性 | 检测模型回答中是否语义通顺,不存在明显基础错误。 |
裁判员模型打分标准差 | 裁判员大模型对模型生成结果打分的标准差(不含无效打分)。 |
裁判员模型打分平均值 | 裁判员大模型对模型生成结果打分的平均值(不含无效打分)。 |
裁判员模型打分中位数 | 裁判员大模型对模型生成结果打分的中位数(不含无效打分)。 |
裁判员模型可查看分数的分布图,按1分为间隔的裁判员模型打分分布;无法解析的裁判员模型输出将归为无效打分。
评估详情
在评估详情列表页,您可以选择每个被评估模型的输出结果及指标。
导出模型结果
需要您打开模型详情页,模型结果分析支持筛选和导出。为避免对页面性能造成影响,每个模型最多展示2000条模型结果分析内容。导出时点击左上角按钮,在浮窗中配置导出位置『本地』或『BOS存储』(需提前开通BOS相关服务 )。
自定义选择导出字段:
右上角操作记录中支持查看用户对模型结果分析导出记录,查看导出任务状态、并对错例数据进行下载、查看。
查看任务日志
平台支持查看本次模型评估任务的详细日志。选择评估的模型后,可以查看其从创建开始到任务结束的日志内容,支持下载到本地保存(txt格式)。
以下为部分日志展示:
可通过日志查看报错,调整任务配置重新发起;或在提交工单时,粘贴日志中的报错由百度技术服务团队协助排查。