创建推理结果集
更新时间:2024-11-13
目录
什么是推理结果集
推理结果集是对生成式大模型的推理结果信息进行一站式管理,涵盖模型批量推理或离线样本文件导入场景。
千帆ModelBuilder对推理结果集的使用方法如下图所示:
首先需要创建推理结果集合,然后是发起模型评估,最后获取评估报告的整体流程。
创建推理结果集
登录到千帆ModelBuilder操作台,在左侧功能列选择推理结果集,进入数据集管理主任务界面,选择创建推理结果集。
需要您按照以下内容所示,完善推理数据集的导入信息。
创建方式为发起模型推理
需要您指定预置模型或我的模型完成推理,并保存数据集。
保存位置为对象存储BOS
对象存储BOS:使用对象存储BOS,享受更大存储空间,数据高效灵活管理。 平台共享存储:平台提供一定免费额度的共享存储空间。
- 若暂未开通,请先开通百度BOS服务。
- 系统将会在您选择的目录下创建 system 用以存储数据,请不要对该目录及目录下的所有文件进行修改,以免导致数据出现问题。
开通建设BOS完成后,需要指定保存目的BOS的Bucket地址和文件夹地址。
保存位置为平台共享存储
平台共享存储:平台提供一定免费额度的共享存储空间。
高级配置
发起模型推理的创建方式,支持对推理模型进行高级配置:
其中,高级配置参数定义可查看创建方式为导入推理结果集
创建方式为导入推理结果集
需要您指定既定模型模型推理的结果数据集,直接导入到结果集。
- 温度:temperature,较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定。建议该参数和top_p只设置1个。
- 多样性:top_p,影响输出文本的多样性,取值越大,生成文本的多样性越强。建议该参数和temperature只设置1个。
- 重复惩罚:penalty_score,用通过对已生成的token增加惩罚,减少重复生成的现象。说明:值越大表示惩罚越大
- 采样:Top-K,采样参数,在每轮token生成时,保留k个概率最高的token作为候选。影响输出文本的多样性,取值越大,生成文本的多样性越强,暂不支持文心大模型系列调整此参数。
- Prompt模板:可开启大模型推理时,指定的Prompt模板,可以设置变量,但整体不可超过模型输入的长度限制。
保存位置为对象存储BOS
对象存储BOS:使用对象存储BOS,享受更大存储空间,数据高效灵活管理。 平台共享存储:平台提供一定免费额度的共享存储空间。
- 若暂未开通,请先开通百度BOS服务。
- 系统将会在您选择的目录下创建 system 用以存储数据,请不要对该目录及目录下的所有文件进行修改,以免导致数据出现问题。
开通建设BOS完成后,需要指定保存目的BOS的Bucket地址和文件夹地址。
- 推理模型:指定推理结果集来源,平台基础模型(我的模型和预置模型)范围可见支持范围,其计费内容可查看计费文档,另外推理模型也可为非平台模型,需要您另外备注模型名称,为后续模型评估注释推理结果集来源。
- 导入方式分为本地导入和BOS导入两种方式.本地导入,即为本地终端文本导入;BOS导入分为文件导入和目录导入,选择BOS文件导入需要选择上传到指定Bucket下的文件,选择BOS目录导入则需要指定Bucket下的文件夹地址。
- 上传文件示例(点击下载):压缩包模板、jsonl模板、excel模板、csv模板。
保存位置为平台共享存储
- 推理模型:指定推理结果集来源的模型,平台基础模型(我的模型和预置模型)范围可见支持范围,其计费内容可查看计费文档,另外推理模型也可为非平台模型,需要您另外备注模型名称,为后续模型评估注释推理结果集来源。
- 导入方式分为本地导入和BOS导入两种方式.本地导入,即为本地终端文本导入;BOS导入分为文件导入和目录导入,选择BOS文件导入需要选择上传到指定Bucket下的文件,选择BOS目录导入则需要指定Bucket下的文件夹地址。
- 上传文件示例(点击下载):压缩包模板、jsonl模板、excel模板、csv模板。
以上动作完成,即导入推理结果集完成。