创建自动评估任务
什么是评估数据集
在人工智能模型开发过程中,通常是将数据集划分为训练集、验证集和测试集三个部分。其中,训练集用来训练模型,验证集则用于调整模型的超参数和选择合适的模型,而测试集则是在模型训练完成后,用于最终评估模型的性能,这就是评估数据集(即测试集)。 评估数据集通常是在与训练数据集相似的情况下收集的,因此可以用来代表真实世界的样本数据。通过对评估数据集的评估,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。
创建自动评估任务
自动评估对⽣成式⼤模型的输出效果进⾏全⽅位评价,提供⾯向事实类或开放性问答的多种打分模式;当前⽀持⽂本类⽣成模型,暂不⽀持图像或跨模态⽣成模型。
登录到本平台,在左侧功能列选择模型评估,进入自动评估主任务界面。
点击“创建评估任务”按钮,进入新建评估任务页面。
由用户填写评估任务所需的基本信息、评估配置和资源配置。
基本信息
填写评估任务名称(自动生成,可修改)、评估任务描述。
评估对象配置
GSB对比评估
支持对两个模型进行效果好坏的对比或者对同一模型在不同prompt/参数配置下的效果好坏对比。 评估时可选择Good、Same、Bad三个选项。Good表示:基准模型比对比模型好;Same表示:基准模型和对比模型一样好或一样差;Bad表示:基准模型比对比模型差。
新建推理结果集
推理结果集的位置可以选择平台共享存储或对象存储BOS(开通BOS),如果您选择对象存储BOS,需要另外指定存储Bucket和文件夹。
对象存储BOS,指定结果集(已包含模型批量推理结果)后续的存储方式。非平台存储的数据集, 在进行数据管理、评估、处理时需用户自行保证数据地址有效。
- 待评估模型: 支持选择多个模型版本同时评估,最多选择5个。支持同时选择预置模型和用户训练模型,具体支持范围详见模型评估支持范围 。
- 评估数据集: 支持选择平台数据集或预置数据集作为评估数据集,支持选择平台数据服务模块已发布的“文本对话”类型数据集,样本数据需全部完成标注。
- 模型高级配置范围,可参考推理结果集,其参数定义可参考创建推理结果集内容。
每次评估数据集标注样本数不可超过10000条。
若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!
评估模型将按照模型服务的批量预测进行计费,具体价格内容可查看计费详情内容。
选择已有推理结果集
您最多可选择5个已有的推理结果集,其中推理结果集的模型范围可来源于我的模型、预置模型和非平台模型,非平台模型为您创建结果数据集任务时,选择直接导入推理结果集的推理模型注释部分。
查看模型高级配置,其范围可参考推理结果集,其参数定义可参考创建推理结果集内容。
自动规则打分
使用预置的相似度或准确率打分规则对比模型生成结果与真实标注的差异,从而计算模型指标。
为避免特殊字符及单词对模型效果评估的影响,可设置停用词表,评估时将自动过滤。下载停用词表示例(以空格或回车分隔不同停用词)。
自动裁判员打分
使用能力更强的大模型作为裁判员,对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景。
- 裁判员模型:裁判员可以选择ERNIE 4.0和ERNIE 3.5,两者均是百度⾃⾏研发的旗舰级⼤语⾔模型,覆盖海量中⽂数据,具有更强的对话问答、内容创作⽣成等能⼒;⽀持作为裁判员⼤模型打分。
- 打分Prompt:当前支持裁判员模型打分模板(含参考答案)的Prompt,在评分环节输入至裁判员模型,您可对评分指标和评分步骤具体内容进行修改,也可前往在线测试对打分Prompt进行验证。
其中,打分prompt可以自定义设置三个变量:根据答案的综合水平给出最大打分值(max_score)及以下的评分、评分指标(metric)和评分步骤(steps)。
任务计费说明
当您仅选择基于规则的打分模式时,评估任务按照批量预测内容计费。
当您选择含基于裁判员模型的打分模式时,ERNI 4.0和ERNIE 3.5 裁判员模型调用单独计入至大模型推理计费项,同时评估任务按照批量预测内容计费。:
新建推理结果集和选择已有推理结果集,分别有不同的计费方式, 详细价格及示例请参考价格示例。
模型评估支持范围
- ERNIE-4.0-8K、ERNIE-3.5-8K
- ERNIE-Speed预置模型、SFT后模型及压缩后模型、DPO后模型
- ERNIE-Lite预置模型、SFT后模型及压缩后模型、DPO后模型
- ERNIE-Tiny预置模型及SFT模型、DPO后模型
- 开源对话Chat类模型
- 压缩后模型: BLOOMZ-7B、Qianfan-Chinese-Llama-2-13B-v1 SFT后模型、Qianfan-Chinese-Llama-2-7B SFT后模型