导入Prompt+Response数据
登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入主任务界面。
数据格式说明
Prompt+Response:单轮或多轮的文本对话数据,提问与回答一一对应,支持系统角色设定。适用于模型精调的SFT大语言模型训练。
以下为无标注样例展示:
# "system"为选填字段,代表系统角色设定信息。
[{"system": "你是一个专业的新闻摘要撰写助手,擅长使用简洁明了的语言来提炼核心信息。", "prompt": "请根据下面的新闻生成摘要, 内容如下:据315晚会报道,公共免费WIFI存在隐患。黑客可利用轻易盗取用户个人信息,如账号、密码等。为了保证您个人信息安全,在公共场所尽量不要使用那些不需要密码免费wifi。\n请生成摘要。"}]
平台支持上传无标注样例,您可在平台上进行数据标注,标注方式包括在线标注、多人标注和众测标注。只有标注完成的数据集,才能被发布并用于训练。
以下为单轮对话(含标注)样例展示:
# "system"为选填字段,代表系统角色设定信息。
[{"system": "你是一个AI学习助手。", "prompt": "我想了解一下机器学习是什么。", "response": "机器学习是人工智能的一个分支,它是指让机器从数据中学习和识别模式、规律,进而提高其自身的能力,而不是直接进行编程或人工干预。例如,你收到的垃圾邮件在你提交给系统进行训练后,系统就能够自动判断是否为垃圾邮件。这就是机器学习中的一个例子。"}]
以下为多轮对话(含标注)样例展示:
# "weight"为选填字段,默认为1,表示当前及历史轮次参与SFT精调,并对当前轮次计算loss;"weight"为0时,表示当前轮次不参与SFT精调的loss计算。
[{"prompt": "生成一首诗歌吧。", "response": "好的,请问你想让这首诗歌关于什么主题呢?", "weight": 0},
{"prompt": "主题关于秋天。", "response": "秋风轻抚过金黄的稻田,\n\n稻穗摇曳,似在低语绵绵。\n\n落叶纷飞,舞动秋的旋律,\n\n铺就一地斑斓,点缀金黄的画卷。\n\n远方的你,是否也在期盼?", "weight": 1}]
平台支持上传多轮对话,但每个样例中的对话限制不超过150轮,超出部分将会被截断。
导入数据
如果您选择的是导入非排序文本对话数据,除了支持手动构建方式导入数据,还支持FAQ挖掘的方式导入数据,创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
手动构建
适用于文本对话数据(含排序和非排序数据集)的导入。
您可以使用以下方案上传文本数据:
FAQ挖掘
仅适用于非排序文本对话数据的导入,基于导入文档通过大模型服务自动挖掘生产问答对,需配置服务及应用。
其中服务为ERNIE-4.0-8K、ERNIE-3.5-8K、ERNIE-Speed-8K、ERNIE-Lite-8k,四种服务选择其中一项,上传文本都会进行预置服务标注,可在数据标注中查看详情,详细计费参考价格文档。
支持以下三种导入方式:
导入格式 | 导入格式 | 格式要求 |
---|---|---|
本地导入 | ·单文件:文件类型为pdf/txt/docx,编码仅支持UTF-8,单个文件不超过60M,单次上传限制100个文件,查看示例。 ·压缩包:传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8压缩包内支持多个pdf/txt/docx文件的上传,查看示例。 |
1.上传需进行自动FAQ挖掘的中文语料文档。 2.大模型挖掘问答对数量取决于您的语料文档字符数量。平均而言,每2000字符大约可挖掘出10个问答对。 |
BOS导入 | ·BOS文件导入:选择指定的Bucket地址和文件,支持文件类型为pdf/txt/docx,编码仅支持UTF-8,单个文件不超过50G,单次上传限制1000个文件。 ·BOS目录导入:选择指定的Bucket地址和文件夹,文件夹内文件类型支持pdf/txt/docx,文件编码仅支持UTF-8。 |
1.上传需进行自动FAQ挖掘的中文语料文档。 2.BOS目录导入时,请确保将全部文本已通过pdf/txt/docx文件保存至同一层文件目录,该层目录下子文件目录及非相关内容(包括压缩包格式等)不导入。 |
分享链接导入 | 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8压缩包内支持多个pdf/txt/docx文件。 | 1.上传需进行自动FAQ挖掘的中文语料文档。 2.确保将全部pdf/txt/docx文本文件保存至同一压缩包。 3.仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。 |
无标注信息
无标注信息-本地导入
本地导入支持四种格式文件:JSONL、XLSX、CSV、TXT,同时支持包含上述格式的tar.gz/zip压缩包文件上传。
非排序样本数据:
导入格式 | 格式要求 | 格式示例 |
---|---|---|
JSONL | 1. 文件内单条数据格式要求为[{"prompt" :“prompt内容”}], 详见数据样例。 2.支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
XLSX | 1. 文件内单条数据在表格中为一行,由表头定义prompt,详见数据样例。 2. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 |
|
CSV | 1. 文件内单条数据在表格中为一列,由表头定义prompt,详见数据样例。 2. 支持文本文件类型为csv,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 |
|
TXT | 1.对话生成的数据序列格式要求为"prompt",详见数据样例。 2. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文件,单个文件不超过100M。 |
含排序样本数据
含排序文本数据格式要求同非排序文本数据一致。
下载数据样例:Prompt+多Response排序 jsonl模板
无标注信息-BOS导入
选择BOS文件导入,需要指定到文件;选择BOS目录导入,需要指定到文件的路径。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
Bucket地址·文件导入 | 1. 对于 jsonl 文件:文件内单条数据格式要求为[{"prompt" : “prompt内容”}];对于 txt 文件:对话生成的数据序列格式要求为"prompt";对于 csv、xlsx 文件:在表格中为一列,由表头定义prompt。 2. 支持文本文件类型为jsonl/xlsx/csv/txt,编码仅支持UTF-8,单次上传限制1000个文本文件,总文件不超过50G。 |
----- |
Bucket地址·目录导入 | 1. 文件夹内文件类型支持jsonl,文件编码仅支持UTF-8。 |
无标注信息-分享链接导入
请确保将全部jsonl文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内
需输入链接地址。分享链接导入的要求如下:
- 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
输入链接地址导入 | 1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 |
无标注信息-平台已有数据集
导入方式 | 格式要求 | 数据集导入内容要求 |
---|---|---|
选择数据集 | 支持选择相同数据格式的数据集版本 | 支持导入未标注数据,也支持全部数据(不含标注信息)导入 |
有标注信息
在进行多轮对话的监督式微调(SFT)时,可能会遇到某些轮次对话效果不理想的情况,如下方示例中的第二轮,模型并未按照指定要求热情地回答问题。如直接使用全部数据进行精调,可能会影响最终的模型性能:
[{"prompt":"可以请你用热情的语气回答我的问题吗?", "response":"当然可以,请说出你的问题"},
{"prompt":"法国的首都是哪里", "response":"巴黎"},
{"prompt":"请你用热情的语气认真回答", "response":"哦!是巴黎,浪漫之都,那儿有很多漂亮的建筑,有机会你一定要去看看!"}]
为解决此问题,通过在多轮对话数据集中配置weight
字段,可在SFT精调时选择性跳过特定轮次的模型回答,使之不参与损失函数(loss)的计算过程,避免模型在训练过程中学习到错误信息。
示例下载(查看多轮对话示例):jsonl模板、xlsx模板、csv模板、txt模板
weight
字段取值:0或1,0表示该轮对话不参与SFT loss计算,默认值为1
- 格式示例
[{"prompt":"可以请你用热情的语气回答我的问题吗?", "response":"当然可以,请说出你的问题", "weight":1},
{"prompt":"法国的首都是哪里", "response":"巴黎", "weight":0},
{"prompt":"请你用热情的语气认真回答", "response":"哦!是巴黎,浪漫之都,那儿有很多漂亮的建筑,有机会你一定要去看看!", "weight":1}]
注意:含weight字段的数据仅在ERNIE Tiny、ERNIE Character、ERNIE Lite 0308、ERNIE Lite128K-0419和ERNIE Speed模型精调SFT中可用,该字段对其他模型开放的情况,请您时刻关注官方说明。
有标注信息-本地导入
本地导入支持四种格式文件:JSONL、XLSX、CSV、TXT,同时支持包含上述格式的tar.gz/zip压缩包文件上传。
非排序样本数据:
导入格式 | 格式要求 | 格式示例 |
---|---|---|
JSONL | 1. 文件内单条数据格式要求为[{"prompt" : "prompt内容","response": [["response内容"]]}], 详见数据样例。 2. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
XLSX | 1. 文件内单条数据在表格中为一行,由表头定义prompt1和response1, 详见数据样例。 2. 支持文本文件类型为xlsx,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
CSV | 1. 文件内单条数据在表格中为一行,由表头定义prompt1和response1,详见数据样例。 2. 支持文本文件类型为csv,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
|
TXT | 1. 文件内单条数据格式要求为"prompt内容"[["response内容"]], 详见数据样例。 2. 支持文本文件类型为txt,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
含排序样本数据
其中,多轮对话的部分示例如下:
[{"prompt":"生成一个关于人工智能的标题吧。",
"response":[["好的,给您生成一些标题:1) 人工智能的未来与挑战; 2) 机器学习在现代生活中的应用; 3) 从AI发展历程看未来发展趋势。"],
["\"人工智能革命:如何加速AI发展并实现企业数字化转型\""]]},
{"prompt":"可以再给我一些具体的例子吗?",
"response":[["当然可以,以下是几个例子:1) 人工智能如何助力人类健康; 2) 语音识别技术大盘点; 3) 深度学习在图像处理中的应用; 4) 基于人工智能的自动程序设计; 5) 人工智能时代的工作未来。"],
["当然可以,例如自然语言处理技术的应用、医疗领域的智能诊断、智能家居的智能化控制等等。这些都是人工智能在现实中的具体应用。"]]},
{"prompt":"我想了解一下机器学习是什么。",
"response":[["机器学习是一门跨学科的学科,它使用计算机模拟或实现人类学习行为,通过不断地获取新的知识和技能,重新组织已有的知识结构,从而提高自身的性能。机器学习涉及多个学科,如概率论、统计学、逼近论、凸分析、算法复杂度理论等。\n\n机器学习的主要任务是指导计算机从数据中学习,然后利用经验来改善自身的性能,不需要进行明确的编程。机器学习算法会不断进行训练,从大型数据集中发现模式和相关性,然后根据数据分析结果做出最佳决策和预测。随着数据越来越多,机器学习应用的准确性也会越来越高。现在机器学习技术的应用范围非常广泛,比如家居生活、购物、娱乐媒体和医疗保健等。\n\n机器学习和人工智能是密不可分的关系,机器学习是人工智能的一个子集。人工智能是基于数据处理来做出决策和预测。通过机器学习算法,人工智能不仅能够处理数据,还能在不需要额外编程的情况下,利用这些数据进行学习,变得更加智能。人工智能是父集,包含了机器学习的所有子集。机器学习的分支包括深度学习和神经网络,它们是人工智能的重要组成部分。\n\n机器学习的工作原理是通过训练和优化算法来不断改进模型,使得模型能够更好地适应新数据和新情境。这个过程通常包括数据预处理、特征提取、模型训练、评估和调整等步骤。机器学习的应用范围非常广泛,比如语音识别、图像识别、自然语言处理、推荐系统等。"],
["机器学习是人工智能的一个分支,它是指让机器从数据中学习和识别模式、规律,进而提高其自身的能力,而不是直接进行编程或人工干预。例如,你收到的垃圾邮件在你提交给系统进行训练后,系统就能够自动判断是否为垃圾邮件。这就是机器学习中的一个例子。"]]}]
导入格式 | 格式要求 | 格式示例 |
---|---|---|
JSONL | 1. 文件内单条数据格式要求为{"prompt" :“prompt内容”,"response":“response内容”},即每个序列为两句话,由逗号分隔开,详见数据样例。 2. 支持文本文件类型为jsonl,编码仅支持UTF-8,单次上传限制100个文本文件,单个文件不超过100M。 |
有标注信息-BOS导入
选择BOS文件导入,需要指定到文件;选择BOS目录导入,需要指定到文件的路径。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
Bucket地址·文件导入 | 1. 对于 jsonl 文件:文件内单条数据格式要求为[{"prompt" : "prompt内容", "response": [["response内容"]]}];对于 txt 文件:对话生成的数据序列格式要求为"prompt";对于 csv、xlsx 文件:在表格中为一列,由表头定义prompt。 2. 支持文本文件类型为jsonl/xlsx/csv/txt,编码仅支持UTF-8,单次上传限制1000个文本文件,总文件不超过50G |
----- |
Bucket地址·目录导入 | 1. 支持jsonl、xlsx、csv、txt格式文件及包含上述格式的tar.gz/zip压缩包上传,请确保将全部文本以上述文件格式保存至同一层文件目录 2.单个jsonl、xlsx、csv、txt文件大小,或压缩包源文件大小,均不超过5G,所有文件数量不超过100 |
有标注信息-分享链接导入
请确保将全部jsonl文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内
需输入链接地址。分享链接导入的要求如下:
- 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式 | 格式要求 | 格式示例 |
---|---|---|
输入链接地址导入 | 1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 |
有标注信息-平台已有数据集
导入方式 | 格式要求 | 数据集导入内容要求 |
---|---|---|
选择数据集 | 支持选择相同数据格式的数据集版本 | 支持导入包含标注信息的原始数据 |
自定义字段描述
"System" "Prompt" "Response" "Weight"为平台预留字段,会参与SFT模型精调。
除这些预留字段外,Prompt+Response数据集还额外支持您在数据中扩展自定义字段,可在数据准备环节指导您更好地进行数据洞察与处理(注:自定义字段不会参与到模型精调环节)。
如需添加自定义字段请使用jsonl格式文件,csv和xlsx文件不支持自定义字段
以单轮对话的SFT问答数据集为例,您可在"response"后添加"area"和"complexity"字段。在SFT数据洞察环节,您可以利用“area”字段统计问题领域分布,或利用“complexity”字段统计问题困难度分布,以帮助您更好地“诊断”SFT数据集,从而对数据进行更针对性处理。
[{"prompt":"什么是大语言模型?","response":"大语言模型(Large Language Model,简称LLM)是指使用大量文本数据训练的深度学习模型,能够生成自然语言文本或理解语言文本的含义,是自然语言处理领域的重要工具,可以处理多种自然语言任务","area":"artificial intelligence","complexity":"medium"}]
[{"prompt":"请你证明费马大定理","response":"由于费马大定理的证明非常复杂且涉及高级的数学概念,我无法在这里给出一个完整的证明过程。","area":"mathematics","complexity":"hard"}]
[{"prompt":"热胀冷缩是什么导致的?","response":"热胀冷缩现象是物质的一种基本性质,其主要原因与物质内部的微观结构以及粒子间的相互作用有关。","area":"physics","complexity":"easy"}]