创建自动评估任务
什么是评估数据集
在人工智能模型开发过程中,通常是将数据集划分为训练集、验证集和测试集三个部分。其中,训练集用来训练模型,验证集则用于调整模型的超参数和选择合适的模型,而测试集则是在模型训练完成后,用于最终评估模型的性能,这就是评估数据集(即测试集)。 评估数据集通常是在与训练数据集相似的情况下收集的,因此可以用来代表真实世界的样本数据。通过对评估数据集的评估,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。
创建自动评估任务
自动评估对⽣成式⼤模型的输出效果进⾏全⽅位评价,提供⾯向事实类或开放性问答的多种打分模式。当前⽀持⽂本类⽣成模型,暂不⽀持图像或跨模态⽣成模型。
登录百度千帆,在左侧功能导航依次选择「模型服务-模型评估-效果评估」,进入自动评估主任务界面。

点击“创建评估任务”按钮,进入新建评估任务页面,并填写任务所需的基本信息及评估配置。

基本信息
填写评估任务名称、描述。
评估对象配置
GSB对比评估
支持对两个模型进行效果好坏的对比或者对同一模型在不同Prompt/参数配置下的效果好坏对比: 评估时可选择Good、Same、Bad三个选项。Good表示:基准模型比对比模型好;Same表示:基准模型和对比模型一样好或一样差;Bad表示:基准模型比对比模型差。
新建推理结果集
推理结果集的位置可以选择平台共享存储或对象存储BOS(开通BOS),如果您选择对象存储BOS,需要另外指定存储Bucket和文件夹。
对象存储BOS,指定结果集(已包含模型批量推理结果)后续的存储方式。非平台存储的数据集,在进行数据管理、评估、处理时需用户自行保证数据地址有效。
注: 若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!
评估模型将按照模型服务的批量推理进行计费。
选择已有推理结果集
您最多可选择5个已有的推理结果集。
评估方法配置
对于评估方法,需要首先选择使用的指标类型:预置评估指标和自定义评估指标。

预置评估指标
预置评估指标可以选择「自动规则打分」与「自动裁判员打分」。

自动规则打分
使用预置的相似度或准确率打分规则对比模型生成结果与真实标注的差异,从而计算模型指标。
为避免特殊字符及单词对模型效果评估的影响,可设置停用词表,评估时将自动过滤。点此下载停用词表示例(以空格或回车分隔不同停用词)。关于自动规则指标解释,请见文档:自动规则打分指标。

自动裁判员打分
使用能力更强的大模型作为裁判员,对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景。提供以下自动裁判员指标:事实性错误、情感倾向性和语义连贯性。

-
裁判员模型设置
平台支持选择预置模型或用户自己的模型作为裁判员模型,预置模型提供ERNIE 4.0、ERNIE 4.0 Turbo和ERNIE 3.5,均是百度⾃⾏研发的旗舰级⼤语⾔模型,覆盖海量中⽂数据,具有更强的对话问答、内容创作⽣成等能⼒。

自定义评估指标
自定义评估指标支持自动裁判员打分方式。该方式使用能力更强的大模型作为裁判员,允许您自定义打分Prompt,设置自定义评估指标,然后对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景。

-
裁判员模型设置
平台支持选择预置模型或用户自己的模型作为裁判员模型。
- 打分Prompt设置
对于打分Prompt,您可以选择平台提供的裁判员打分模板,也可以选择自己创建新的打分模板。
1 - **选择平台提供的打分模板:**
2
3 - **模板种类**:当前支持**裁判员模型打分模板(含参考答案)**、**裁判员GSB打分模板(含参考答案)**两种Prompt,后者在开启GSB基准对比时可选。该Prompt会再在评分环节输入至裁判员模型。
4 - **Prompt设置**:选择模板后,您可点击“查看Prompt详情”按钮,将Prompt展开,查看详情,并可在右侧修改评分指标和评分步骤。打分prompt可以自定义设置三个变量:根据答案的综合水平给出**最大打分值(max_score)**及以下的评分、**评分指标(metric)**和**评分步骤(steps)**。
5 - **验证Prompt**:对评分指标和评分步骤等具体内容进行修改后,您可前往[在线测试](https://console.bce.baidu.com/qianfan/ais/console/onlineTest)对打分Prompt进行验证。
6
7 
8
9
10 - **自己创建新的打分模板:**
11
12 - **新建Prompt模板**:
13
14 点击打分Prompt下拉选择框右侧的“新建”按钮,会弹出新建打分Prompt的弹窗。
15
16
17
18 在弹窗中,可进行模板名称、裁判员身份设定和评估指标设定。评估指标下方提供Prompt整体预览,弹窗右侧提供预置变量,点击即可插入Prompt。其中,评估指标处,您可自定义最多十个评估指标,并设置其指标说明、量级、量级说明等信息。
19
20 完成设置后,点击右下角“保存并使用”按钮,即可使用该Prompt。
21
22 
23
24 - **使用Prompt模板**:对于已经创建过的自定义模板,直接在下拉框中选中使用即可。
25
26 - **编辑、删除Prompt模板**:选中想要编辑/删除的自定义模板后,点击下拉框下方的编辑/删除按钮,即可对模板进行对应操作。
27
28 - **验证Prompt**:对评分指标和评分步骤等具体内容进行修改后,您可前往[在线测试](https://console.bce.baidu.com/qianfan/ais/console/onlineTest)对打分Prompt进行验证。
