导入Prompt+Image+Response数据
更新时间:2024-11-15
登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入主任务界面。
单轮或多轮的图文混合对话数据,支持单图或多图场景。适用于模型精调的SFT图像理解大模型训练。
多图场景的图像理解数据集当前仅在LLaVA模型精调SFT中可用。
对于Prompt+Image+Response数据,目前只支持上传已标注的数据。
导入数据
创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
您可以使用以下方案上传数据: 本地导入、BOS导入、分享链接导入、平台已有数据集
本地导入
本地导入标注格式支持仅支持平台默认格式。
导入格式 | 格式要求 | 格式示例 |
---|---|---|
压缩包 | 1. 压缩包需包含对话样本文件及关联的图片集合,详细请下载数据样例。 2. 压缩包文件大小不超过1G,所有文件数量不超过100。 3. 图像文件支持jpg、png、jpeg、webp格式。 4. 单张图片大小限制在100M以内。 5. 编码方式:UTF-8。 |
BOS导入
选择BOS文件导入,需要指定到文件;选择BOS目录导入,需要指定到文件的路径。
导入格式 | 格式要求 | 格式示例 |
---|---|---|
Bucket地址·文件导入 | 1. 压缩包需包含对话样本文件及关联的图片集合,详细请下载数据样例。 2. 压缩包源文件大小不超过50G,所有文件数量不超过1000。 3. 图像文件支持jpg、png、jpeg、webp格式。 4. 单张图片大小限制在100M以内。 |
|
Bucket地址·目录导入 | 1. 目录下需包含对话样本文件及关联图片集合组成的压缩包,详细请下载数据样例。 2. 目录内总文件大小不超过50G,所有文件数量不超过10w。 3. 图像文件支持jpg、png、jpeg、webp格式。 4. 单张图片大小限制在100M以内。 |
分享链接导入
请确保将全部图片已保存至同一压缩包,压缩包仅支持tar.gz/zip格式,压缩前源文件大小限制1G以内 需输入链接地址。分享链接导入的要求如下:
- 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
输入链接地址导入 | 1. 链接地址要求为tar.gz/zip格式压缩包,压缩包内支持多个jpg、png、jpeg、webp文件。 2. 图像文件支持jpg、png、jpeg、webp格式,图片大小限制在100M内,压缩包源文件大小限制1G以内。 |
平台已有数据集
导入方式 | 格式要求 | 数据集要求 |
---|---|---|
选择数据集 | 仅支持选择未发布的数据集版本 | 有标注信息的数据集 |
以上所有步骤完成后,即可导入数据至数据集。