导出数据
更新时间:2024-09-19
目录
登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入主任务界面。
创建导出任务
您可将未标注或标注好的数据集导出到本地或BOS,供后续使用,选择指定数据集版本操作列的“导出”按钮。
文本对话类数据导出
此类数据包含Prompt+Response、Prompt+Chosen+Rejected、Prompt+Chosen/Rejected、Prompt+多Response排序等文本数据。
- 如选择导出全部数据,包含源文件及已有的标注文件;
- 如选择导出原始数据,则导出的文件为不带标注的平台默认的源文件格式。
- 导出至BOS需要另外选择Bucket。
- 目前支持导出格式:jsonl、csv、xlsx。
Prompt集类数据导出
Prompt数据导出,仅支持导出源文件。
导出至BOS需要选择Bucket。
纯文本类数据导出
泛文本无标注数据导出,仅支持导出源文件,操作内容与prompt集类数据导出一致。
文生图数据导出
此类数据为Prompt+图片类数据。
导出数据内容如下图所示:
查看数据导出结果
数据开始导出后,您可在数据集导出页查看导出状态。导出结果有“进行中”、“已完成”和“导出失败”等状态。点击下图的“查看”按钮,即可查看到导出任务列表。
- 若数据集导出至本地且导出任务完成,您可至导出任务列表中执行“下载”操作。
- 若数据集导出至BOS且导出任务完成,您可至导出任务列表中执行“前往BOS查看”操作,而后跳转到存储页面下载文件。
注意:目前数据集导出支持导出数据至百度云对象存储服务BOS,BOS支持标准、低频、冷和归档存储等多种存储类型,满足多场景的存储需求,并提供灵活的接口服务支持下载至本地服务器。从BOS导出数据,需要确保您已开通百度云BOS服务。若暂未开通,请先开通BOS服务。