导入Prompt集数据
更新时间:2024-11-04
登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入训练数据集主任务界面。
以下为部分数据示例:
{"prompt": "请根据下面的新闻生成摘要, 内容如下:新华社受权于18日全文播发修改后的《中华人民共和国立法法》,修改后的立法法分为“总则”“法律”“行政法规”“地方性法规、自治条例和单行条例、规章”“适用与备案审查”“附则”等6章,共计105条。\n生成摘要如下:"}
导入数据
创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
您可以使用以下方案上传文本数据:
本地导入
本地导入支持五种导入格式:JSONL、TXT、CSV、XLSX、ZIP。
导入格式 | 格式要求 | 格式示例 |
---|---|---|
Jsonl | 1. 文件内单条数据格式要求为[{"prompt" :“prompt内容”}], 详见数据样例。 2. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
TXT | 1. 对话生成的数据序列格式要求为"prompt",详见数据样例。 2. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 |
|
CSV | 1. 文件内单条数据的格式参考示例图,在表格中为一列,由表头定义prompt,详见数据样例。 2. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 |
|
XLSX | 1. 文件内单条数据的格式参考示例图,在表格中为一列,由表头定义prompt,详见数据样例。 2. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 |
|
ZIP | 1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。详见示例压缩包。 |
BOS导入
选择BOS文件导入,需要指定到文件;选择BOS目录导入,需要指定到文件的路径。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
Bucket地址·文件导入 | 1. 对于 txt 文件:格式要求为"prompt";对于 xlsx 文本:在表格中为一列,由表头定义prompt;对于 jsonl 文件:文件内单条数据格式要求为[{"prompt" :“prompt内容”}]。 2. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
----- |
Bucket地址·目录导入 | 1. 文件夹内文件类型支持jsonl,文件编码仅支持UTF-8。 |
分享链接导入
请确保将全部jsonl文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内
需输入链接地址。分享链接导入的要求如下:
- 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
输入链接地址导入 | 1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 |
平台已有数据集
导入方式 | 格式要求 | 数据集要求 |
---|---|---|
选择数据集 | 仅支持选择未发布的数据集版本 | 已在平台导入的非空数据集。 |
以上所有步骤完成后,即可导入数据至数据集。