查看与管理人工评估任务
更新时间:2024-03-18
目录
对生成式大模型的输出效果、计算性能进行全方位评价,提供面向事实类或开放性问答的不同打分模式;当前支持文本类生成模型,暂不支持图像或跨模态生成模型。
登录到千帆大模型操作台,在左侧功能列选择模型评估,进入人工评估主任务界面。
查看人工评估任务详情
您可以通过点击任务名称查看评估任务的详细内容。
当创建的任务的状态为“待评估”时,需要您点击操作列的"在线评估"进行标注,详细标注操作可查看数据标注相关操作。
当评估任务状态为“已完成”时,您可点击操作列的“查看评估详情”按钮,查看具体的人工评估内容。已完成人工评估的结果集不支持任何编辑操作。
查看评估报告
当评估任务状态为“已完成”时,您可点击操作列的“查看评估报告”按钮,查看详细的评估信息。
人工打分指标
指标名称 | 指标说明 |
---|---|
平均分数 | 平均分数计算公式:所有评价维度分数之和/数据量评价维度数量 |
Goodcase占比 | Goodcase比例计算公式:所有评价维度等于2分的数量/数据量评价维度数量 |
满意度等 | 创建人工评估任务时,所填写的自定义指标。 |
评估报告
该页面展示创建评估任务时的评估维度结果的可视化分布,包括评估任务的整体指标和详细指标等内容。
另外支持查看评分者的主观感受:为您提交【在线评估】时所填写的对大模型的主观感受。
导出模型结果
模型结果分析支持筛选和导出。为避免对页面性能造成影响,每个模型最多展示2000条模型结果分析内容。导出时点击左上角按钮,在浮窗中配置导出位置『本地』或『BOS存储』(需提前开通BOS相关服务 )。
其中,导出全部数据指的是导出该评估任务的所有错例数据,导出处字段(不定项选择)支持Prompt问题、预期回答、模型结果和评估指标(全部)。
右上角操作记录中支持查看用户对模型结果分析导出记录,查看导出任务状态、并对错例数据进行下载、查看。
查看任务日志
平台支持查看本次模型评估任务的详细日志。选择评估的模型后,可以查看其从创建开始到任务结束的日志内容,支持下载到本地保存(txt格式)。
以下为部分日志展示:
可通过日志查看报错,调整任务配置重新发起;或在提交工单时,粘贴日志中的报错由百度技术服务团队协助排查。