创建数据集
更新时间:2024-12-26
平台可统一纳管用于模型精调的数据集,并支持对数据集进行多版本迭代、增量导入和删除等操作。若您当前尚未准备可用数据集,也可选择平台的预置数据集,来体验模型精调或评估。
登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入通用数据集管理主任务界面。
不同数据用途和数据格式的数据集,将服务于不同的模型精调方式,您需重点关注数据格式相关内容,单/多轮对话区别和示例可在此文中进行参考。
查看数据集列表
平台支持统一纳管自训练模型的数据集,可与数据标注/数据清洗/数据增强等能力相结合,构建面向生成式大模型场景的数据集,如下图所示:
您可根据实际需求对数据集进行名称变更、新增版本、导入数据和删除等操作。
创建数据集
在指定数据集名称、数据用途、数据格式等基本信息后,您可发起数据上传并指定目标存储位置,由此完成数据集创建。
理解数据类型
平台数据集当前支持以下类型:
- Prompt+Response:⽤于文本生成场景的有监督微调SFT。单轮或多轮的⽂本对话数据,提问与回答⼀⼀对应。
- Role(user+assistant):⽤于文本生成场景的有监督微调SFT。单轮或多轮的文本对话数据,提问与回答—一对应,支持多角色类型与Function Call工具调用。
- 纯文本:⽤于预训练Post-pretrain。特定⾏业⽅向/场景下的⼤规模⽆标注数据语料。
- Prompt+Chosen/Rejected:用于偏好对齐KTO。单轮或多轮的⽂本对话数据,每个提示语存在对应的正或负偏好回答。
- Prompt+Chosen+Rejected:用于偏好对齐DPO。单轮或多轮的⽂本对话数据,每个提示语存在对应的正负偏好回答。
- Prompt+多Response排序:⽤于RLHF奖励模型微调。单轮或多轮的⽂本对话数据,单个提问对应多个回答,多个回答间带有先后排序关系。
- Prompt集:⽤于RLHF强化学习微调。
- Prompt+图片:⽤于图像生成场景的有监督微调SFT,文本提问与图片回答—一对应。
- Prompt+Image+Response:用于图像理解场景的有监督微调SFT,单轮或多轮的图文混合对话数据,支持单图或多图场景。
保存位置
平台提供两类存储位置:
对象存储BOS:使用对象存储BOS,享受更大存储空间,数据高效灵活管理。
平台共享存储:平台提供一定免费额度的共享存储空间。
- 若暂未开通,请先开通百度BOS服务。
- 平台将会在您选择的目录下创建 _system_ 目录用以存储数据,请不要对该目录及目录下的所有文件进行修改,以免导致数据出现问题。
文件导入
平台支持4种导入方式:本地导入、BOS导入、分享链接导入和使用平台已有数据集。
新增数据集版本
平台支持在已有数据集基础上增加版本,您可在数据集详情页面的版本列表点击“新增版本”。
此外,您可以选择是否继承历史版本,开启后,您可以在历史版本的基础上对数据进行修改。
若不继承历史版本,则需要您手动导入新的数据,具体操作详见文件导入。
预置数据集
为方便用户快速完成功能体验,平台预置了围绕不同任务类型、行业场景的数据集。
预置数据集支持类型如下:
数据格式 | 任务类型 | 行业场景 | 数据用途 |
---|---|---|---|
Prompt+Response 纯文本 Prompt+Chosen/Rejected Prompt+Chosen+Rejected |
知识问答:开放式问答、阅读理解 对话引擎:角色对话 逻辑推理:知识推理、数学推理 代码能力:代码生成 内容创作:文本创作 基础语言处理:摘要生成、文本分类、感情分析、信息抽取、同义改写 |
通用 在线教育 交互助手 电商营销 社交文娱 金融 医疗 法律 |
精调 评估 |
详情
在预置数据集功能页,点击指定数据集,即可查看对应数据集的详情,如下图所示: