创建数据集
平台支持统一纳管自训模型的数据集,并对数据样本集可自主进行版本迭代、继续导入和删除等操作。
如果您当前未准备可用的数据集的话也可以选择平台的预置数据集,进行调优或评估操作。
登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入通用数据集管理主任务界面。
其中不同标注类型的文本,将用于不同的模型训练方式,重点关注标注类型相关内容,单/多轮对话区别和示例可文中进行参考。
列表查看
平台支持统一纳管自训练模型的数据集,可与数据标注/数据清洗/数据增强等能力相结合,构建面向生成式大模型场景的数据集。
数据集支持对已经建立的数据按数据集组为粒度分行展示。如下图所示:
可根据实际需求对上图列表中的数据集进行名称变更、新增版本、导入数据和删除等操作。
创建数据集
需输入数据集名称,默认数据类型为Prompt+Response,数据集版本从V1开始迭代。
数据类型
数据分为以下类型:
- Prompt+Response:⽤于SFT训练输⼊。单轮或多轮的⽂本对话数据,单个提问和回答⼀⼀对应。
- 纯文本:⽤于post-pretrain的训练输⼊。特定⾏业⽅向/场景下的⼤规模⽆标注数据语料。
- Prompt+Chosen/Rejected:用于KTO微调训练。单轮或多轮的⽂本对话数据,每个提示语存在对应的正或负偏好回答。
- Prompt+Chosen+Rejected:用于DPO微调训练。单轮或多轮的⽂本对话数据,每个提示语存在对应的正负偏好回答。
- Prompt+多Response排序:⽤于奖励模型训练输⼊。单轮或多轮的⽂本对话数据,单个提问对应多个回答,需要对多个回答进⾏排序。
- Prompt集:⽤于RLHF训练数据。单轮或多轮的提问语料数据。
- Prompt+图片:⽤于SFT训练数据,精调⽂⽣图类模型。
- Prompt+图片+Response:用于SFT训练数据,精调图理解类模型。
保存位置
平台提供两种存储方式:
对象存储BOS:使用对象存储BOS,享受更大存储空间,数据高效灵活管理。
平台共享存储:平台提供一定免费额度的共享存储空间。
需注意:非平台存储的数据集,在进行数据管理、标注、处理时需用户自行保证数据地址有效,如您存储选择BOS,导出数据时也会到出到BOS。
- 若暂未开通,请先开通百度BOS服务。
- 系统将会在您选择的目录下创建 _system_ 目录用以存储数据,请不要对该目录及目录下的所有文件进行修改,以免导致数据出现问题。
文件导入
平台支持4种导入方式:本地导入、BOS导入、分享链接导入和使用平台已有数据集。
其中导入Prompt+Response和Prompt+多Response排序可参考Prompt+Response导入、导入Prompt+Chosen+Rejected可参考Prompt+Chosen+Rejected导入、导入纯文本数据可参考纯文本导入、导入Prompt集可参考Prompt集导入、导入Prompt+图片可参考Prompt+图片导入、导入Prompt+Chosen/Rejected可参考Prompt+Chosen/Rejected导入。
已发布的数据集版本,不再支持导入。
新增数据集版本
如您在本数据集的基础上想要增加版本,可以在数据集详情页面的版本列表中选择“新增版本”按钮
新版本数据的数据类型默认与历史版本相同。您可以选择是否继承历史版本,开启后,您可以在历史版本的基础上对数据进行修改。
若不继承历史版本,则需要手动导入新的数据,具体操作详见文件导入。
预置数据集
平台为方便用户快速完成平台使用并验证训练效果,置入多款预置数据集。
预置数据集支持类型如下:
数据类型 | 任务类型 | 行业场景 | 数据用途 |
---|---|---|---|
Prompt+Response 纯文本 Prompt+Chosen+Rejected |
知识问答:开放式问答、阅读理解 对话引擎:角色对话 逻辑推理:知识推理、数学推理 代码能力:代码生成 内容创作:文本创作 基础语言处理:摘要生成、文本分类、感情分析、信息抽取、同义改写 |
通用 在线教育 交互助手 电商营销 社交文娱 金融 医疗 法律 |
精调 评估 |
详情
在预置数据集功能页,点击指定数据集,即可查看本数据集的具体内容,如下图所示:
选择“数据预览”操作列的“查看”即可展示当前数据集的具体内容:
评估
预置数据集可以作为评估数据集在“模型评估”中进行任务创建,详细操作可查看模型评估相关内容。