创建人工评估任务
什么是评估数据集
在人工智能模型开发过程中,通常是将数据集划分为训练集、验证集和测试集三个部分。其中,训练集用来训练模型,验证集则用于调整模型的超参数和选择合适的模型,而测试集则是在模型训练完成后,用于最终评估模型的性能,这就是评估数据集(即测试集)。
评估数据集通常是在与训练数据集相似的情况下收集的,因此可以用来代表真实世界的样本数据。通过对评估数据集的评估,可以了解模型在不同场景下的表现,从而更好地优化模型。同时,评估数据集还可以用来验证模型的泛化能力,即模型在未见过的数据上的表现如何。
创建人工评估任务
人工评估可综合人类专家的主观见解、经验等从不同评价维度对模型回复进行打分,用于评估模型回复的效果。
登录到本平台,在左侧功能列选择模型评估,进入人工评估主任务界面。
点击“创建评估任务”按钮,进入创建人工评估任务页面。
由用户填写评估任务所需的基本信息、评估配置、人工打分规则配置和资源配置。
基本信息
填写评估任务名称(自动生成,可修改)、评估任务描述。
评估对象配置
GSB对比评估
支持对两个模型进行效果好坏的对比或者对同一模型在不同prompt/参数配置下的效果好坏对比。 评估时可选择Good、Same、Bad三个选项。Good表示:基准模型比对比模型好;Same表示:基准模型和对比模型一样好或一样差;Bad表示:基准模型比对比模型差。
新建推理结果集
推理结果集的位置可以选择平台共享存储或对象存储BOS(开通BOS),如果您选择对象存储BOS,需要另外指定存储Bucket和文件夹。
对象存储BOS,指定结果集(已包含模型批量推理结果)后续的存储方式。非平台存储的数据集, 在进行数据管理、评估、处理时需用户自行保证数据地址有效。
- 待评估模型: 支持选择多个模型版本同时评估,最多选择5个。支持同时选择预置模型和用户训练模型,具体支持范围详见模型评估支持范围 。
- 评估数据集: 支持选择平台数据集或预置数据集作为评估数据集,支持选择平台数据服务模块已发布的“文本对话”、“prompt集”类型数据集。
- 模型高级配置范围,可参考推理结果集,其参数定义可参考创建推理结果集内容。
每次评估数据集标注样本数不可超过10000条。
若数据集保存在BOS中,请勿在提交任务后修改BOS数据。修改后可能会导致任务失败!
选择已有推理结果集
您最多可选择5个已有的推理结果集,其中推理结果集的模型范围可来源于我的模型、预置模型和非平台模型,非平台模型为您创建结果数据集任务时,选择直接导入推理结果集的推理模型注释部分。
查看模型高级配置,其范围可参考推理结果集,其参数定义可参考创建推理结果集内容。
人工打分规则配置
评估维度如下图所示,支持1~5个评估维度,如果预置的评估维度无法满足您的需求,您也可以添加适合本次的评估维度。
当评估任务在待评估状态下,您可以在操作列点击在线评估对数据进行标注。
在线评估
当您任务创建成功后,即可在人工评估首页,选择任务的“在线评估”按钮,进行如下数据集的评估任务。
模型评估支持范围
- ERNIE-4.0-8K、ERNIE-3.5-8K
- ERNIE-Speed预置模型、SFT后模型及压缩后模型、DPO后模型
- ERNIE-Lite预置模型、SFT后模型及压缩后模型、DPO后模型
- ERNIE-Tiny预置模型及SFT模型、DPO后模型
- 开源对话Chat类模型
- 压缩后模型: BLOOMZ-7B、Qianfan-Chinese-Llama-2-13B-v1 SFT后模型、Qianfan-Chinese-Llama-2-7B SFT后模型