导入Prompt+Response数据
更新时间:2024-04-12
目录
登录到千帆大模型操作台,在左侧功能列选择通用数据集,进入主任务界面。
导入数据
如果您选择的是导入非排序文本对话数据,除了支持手动构建方式导入数据,还支持FAQ挖掘的方式导入数据。
手动构建
适用于文本对话数据(含排序和非排序数据集)的导入。
创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
您可以使用以下方案上传文本数据:
FAQ挖掘
仅适用于非排序文本对话数据的导入,基于导入文档通过大模型服务自动挖掘生产问答对,需配置服务及应用。
其中服务为ERNIE-4.0-8K、ERNIE-3.5-8K、ERNIE-Speed-8K、ERNIE-Lite-8k,四种服务选择其中一项,上传文本都会进行预置服务标注,可在数据标注中查看详情,详细计费参考价格文档。
支持以下三种导入方式:
导入格式 | 导入格式 | 格式要求 |
---|---|---|
本地导入 | ·单文件:文件类型为pdf/txt/docx,编码仅支持UTF-8,单个文件不超过60M,单次上传限制100个文件,查看示例。 ·压缩包:传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8压缩包内支持多个pdf/txt/docx文件的上传,查看示例。 |
1.上传需进行自动FAQ挖掘的中文语料文档。 2.大模型挖掘问答对数量取决于您的语料文档字符数量。平均而言,每2000字符大约可挖掘出10个问答对。 |
BOS导入 | ·BOS文件导入:选择指定的Bucket地址和文件,支持文件类型为pdf/txt/docx,编码仅支持UTF-8,单个文件不超过60M,单次上传限制100个文件。 ·BOS目录导入:选择指定的Bucket地址和文件夹,文件夹内文件类型支持pdf/txt/docx,文件编码仅支持UTF-8。 |
1.上传需进行自动FAQ挖掘的中文语料文档。 2.BOS目录导入时,请确保将全部文本已通过pdf/txt/docx文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入。 |
分享链接导入 | 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8压缩包内支持多个pdf/txt/docx文件。 | 1.上传需进行自动FAQ挖掘的中文语料文档。 2.确保将全部pdf/txt/docx文本文件保存至同一压缩包。 3.仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。 |
无标注信息
无标注信息-本地导入
本地导入支持五种导入格式:JSONL、TXT、CSV、XLSX、ZIP。
非排序样本数据:
导入格式 | 格式要求 | 格式示例 |
---|---|---|
Jsonl | 1. 文件内单条数据格式要求为[{"prompt" :“prompt内容”}], 详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3.支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
TXT | 1.对话生成的数据序列格式要求为"prompt",详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 |
|
CSV | 1. 文件内单条数据的格式参考示例图,在表格中为一列,由表头定义prompt,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 |
|
XLSX | 1. 文件内单条数据的格式参考示例图,在表格中为一列,由表头定义prompt,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 |
含排序样本数据
含排序文本数据格式要求同非排序文本数据一致。
无标注信息-BOS导入
选择BOS文件导入,需要指定到文件;选择BOS目录导入,需要指定到文件的路径。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
Bucket地址·文件导入 | 1. 对于 jsonl 文件:文件内单条数据格式要求为[{"prompt" : “prompt内容”}];对于 txt 文件:对话生成的数据序列格式要求为"prompt";对于 csv、xlsx 文件:在表格中为一列,由表头定义prompt。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为txt/csv/jsonl/xlsx,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
----- |
Bucket地址·目录导入 | 1. 文件夹内文件类型支持jsonl,文件编码仅支持UTF-8。 2. jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 |
无标注信息-分享链接导入
请确保将全部jsonl文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内
需输入链接地址。分享链接导入的要求如下:
- 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
输入链接地址导入 | 1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2. 压缩包内支持多个jsonl文件,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 |
无标注信息-平台已有数据集
导入方式 | 格式要求 | 数据集要求 |
---|---|---|
选择数据集 | 仅支持选择未发布的数据集版本 | 支持全部数据的导入,此方式导入的数据不带标注;另外也支持仅导入未标注数据。 |
有标注信息
有标注信息-本地导入
本地导入支持五种导入格式:JSONL、TXT、CSV、XLSX和ZIP。
非排序样本数据:
导入格式 | 格式要求 | 格式示例 |
---|---|---|
Jsonl | 1. 文件内单条数据格式要求为[{"prompt" : "prompt内容","response": [["response内容"]]}], 详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
TXT | 1. 文件内单条数据格式要求为"prompt内容"[["response"]], 详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
CSV | 1. 文件内单条数据在表格中为一列,由表头定义prompt,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
XLSX | 1. 文件内单条数据在表格中为一列,由表头定义prompt, 详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
含排序样本数据
导入格式 | 格式要求 | 格式示例 |
---|---|---|
Jsonl | 1. 文件内单条数据格式要求为{"prompt" :“prompt内容”,"response":“response内容”},即每个序列为两句话,由逗号分隔开,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
TXT | 1. 文件内单条数据格式要求为"prompt内容"[["response"]],即每个序列为两句话,由逗号分隔开,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
CSV | 1. 文件内单条数据在表格中为一列,由表头定义prompt,即每个序列为两句话,由逗号分隔开,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
XLSX | 1. 文件内单条数据在表格中为一列,由表头定义prompt,即每个序列为两句话,由逗号分隔开,详见数据样例。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
有标注信息-BOS导入
选择BOS文件导入,需要指定到文件;选择BOS目录导入,需要指定到文件的路径。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
Bucket地址·文件导入 | 1. 对于 jsonl 文件:文件内单条数据格式要求为[{"prompt" : "prompt内容", "response": [["response内容"]]}];对于 txt 文件:对话生成的数据序列格式要求为"prompt";对于 csv、xlsx 文件:在表格中为一列,由表头定义prompt。 2. 每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 3. 支持文本文件类型为txt/csv/jsonl/xlsx,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M |
----- |
Bucket地址·目录导入 | 1. 支持jsonl、txt、csv、xlsx格式文件及包含上述格式的tar.gz/zip压缩包上传,请确保将全部文本以上述文件格式保存至同一层文件目录 2.单个jsonl、txt、csv、xlsx文件大小,或压缩包源文件大小,均不超过5G,所有文件数量不超过100 3.每一行代表一组数据,每组数据中的Token数不超过32000 |
有标注信息-分享链接导入
请确保将全部jsonl文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内
需输入链接地址。分享链接导入的要求如下:
- 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
输入链接地址导入 | 1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2.压缩包内支持多个jsonl文件,jsonl文件中每一行表示一组数据,每组数据中的prompt和response加起来之和字符数不超过32000Token(包括中英文、数字、符号等),超出部分将被截断。 |
有标注信息-平台已有数据集
导入方式 | 格式要求 | 数据集要求 |
---|---|---|
选择数据集 | 仅支持选择未发布的数据集版本 | 有标注信息的数据集 |