数据集对应关系说明
目录
数据集类型与模型训练的对应关系
本平台支持在创建数据集时,导入不同标注类型的数据。
-
文本对话(Prompt+Response)
- 非排序模版(含Role格式数据):单轮或多轮的文本对话数据,单个提问和回答一一对应,作为后续SFT的训练输入。
- 含排序模版:单轮或多轮的文本对话数据,单个提问对应多个回答, 需要对多个回答进行排序,作为后续奖励模型的训练输入。
- 纯文本数据:特定行业方向/场景下的大规模无标注数据语料,作为后续post-pretrain的训练输入。
- Prompt+Chosen+Rejected:用于后续DPO模型训练或SimPO模型训练。prompt:包含上下文输入;chosen:包含相应的已选择答案(正例); rejected:包含相应的拒绝答案(负例)。
- Prompt+Chosen/Rejected:用于后续KTO模型训练。prompt:包含上下文输入;chosen:包含相应的已选择答案(正例); rejected:包含相应的拒绝答案(负例)。
- Prompt集:单轮或多轮的提问语料数据,作为后续模型评估的输入。
- Prompt+图片:特定行业需求下的输入相关prompt,大模型自动返回图片格式数据。
- Prompt+Images+Response:单轮或多轮的图文对话数据,适用于模型精调的SFT图像理解大模型训练,需上传已经标注好的数据。
具体对应关系可参考:
- Post-pretrain匹配纯文本的数据集,操作内容可参考Post-pretrain的数据配置内容。
- SFT匹配多轮对话-非排序类(含Role格式)的数据集,操作内容可参考SFT的数据配置内容。
- KTO匹配Prompt+Chosen/Rejected类的数据集,操作内容可参考KTO的数据配置内容。
- SimPO匹配Prompt+Chosen+Rejected类的数据集,操作内容可参考SimPO的数据配置内容。
- DPO匹配Prompt+Chosen+Rejected类的数据集,操作内容可参考DPO的数据配置内容。
- RLHF训练匹配多轮对话-排序类的数据集,操作内容可参考奖励模型训练的数据配置内容。
- 文生图大模型训练匹配Prompt+图片的数据集,操作内容可参考模型训练的数据配置内容。
- 图像理解大模型训练匹配Prompt+Images+Response的数据集,操作内容可参考模型训练的数据配置内容。
数据格式说明
当前本平台支持您上传未标注的数据集,但在发布数据集时会自动校验此数据集是否需要完成标注,因此不同的模型训练有其固定的数据格式。
(一)文本生成-有监督微调SFT
单轮或多轮的文本对话数据,提问与回答一一对应,支持多角色类型和函数调用。
当前支持Prompt + Response 格式,以下将以jsonl格式文件(未开启FAQ挖掘)为例,进行数据格式说明。所有支持的格式样例文件您可直接下载:
- 未开启FAQ挖掘:jsonl模板、csv模板、xlsx模板、txt模板,支持jsonl、csv、xlsx、txt格式文件及包含上述文件类型的tar.gz/zip压缩包文件上传。
- 开启FAQ挖掘后:压缩包模板、docx模板,支持pdf、txt、docx格式文件及包含上述文件类型的tar.gz/zip压缩包文件上传。
(1)有标注样例(单轮对话)
格式说明:
[{"system":"你是一个人工智能助手。", "prompt": "请根据下面的新闻生成摘要, 内容如下:新华社受权于18日全文播发修改后的《中华人民共和国立法法》,修改后的立法法分为“总则”“法律”“行政法规”“地方性法规、自治条例和单行条例、规章”“适用与备案审查”“附则”等6章,共计105条。\n生成摘要如下:", "response": "修改后的立法法全文公布"}]
[{"system":"你是一个人工智能助手。", "prompt": "请根据下面的新闻生成摘要, 内容如下:一辆小轿车,一名司机,竟造成9死24伤。日前,深圳市交警局对事故进行通报:从目前证据看,事故系司机超速行驶且操作不当导致。目前24名伤员已有6名治愈出院,其余正接受治疗,预计事故赔偿费或超一千万元。\n生成摘要如下:", "response": "深圳机场9死24伤续:司机全责赔偿或超千万"}]
"system"为选填字段,代表系统角色设定信息。
(2)有标注样例(多轮对话)
格式说明:
[{"system":"你是一个人工智能助手。", "prompt": "生成一个关于人工智能的标题吧。", "response": "好的,给您生成一些标题:1) 人工智能的未来与挑战; 2) 机器学习在现代生活中的应用; 3) 从AI发展历程看未来发展趋势。", "weight": 1}, {"prompt": "可以再给我一些具体的例子吗?", "response": "当然可以,例如自然语言处理技术的应用、医疗领域的智能诊断、智能家居的智能化控制等等。这些都是人工智能在现实中的具体应用。", "weight": 1}, {"prompt": "我想了解一下机器学习是什么。", "response": "机器学习是人工智能的一个分支,它是指让机器从数据中学习和识别模式、规律,进而提高其自身的能力,而不是直接进行编程或人工干预。例如,你收到的垃圾邮件在你提交给系统进行训练后,系统就能够自动判断是否为垃圾邮件。这就是机器学习中的一个例子。", "weight": 1}]
[{"system":"你是一个人工智能助手。", "prompt": "生成一个有趣的故事给我听。", "response": "好的,故事的主人公是谁?他发生了什么事情?", "weight": 1}, {"prompt": "讲一个小动物的故事,它在森林里冒险。", "response": "有一天,一只小松鼠决定冒险去探索森林。在森林中,它遇到了许多有趣的事情,比如说看到了漂亮的花朵、飞舞的蝴蝶、还有巨大的老树。但是,在探索过程中它遇到了一只狐狸,狐狸看上去很善良,与小松鼠成为了好朋友。", "weight": 1}, {"prompt": "挑战一下我的智力,出一道数学难题给我解决。", "response": "好的,有六个球,其中一个有重量不同于其他球,你只有一次称重的机会,如何称重可以找出那个重量不同的球?", "weight": 1}, {"prompt": "我不太会做这个题,可以给我解释一下吗?", "response": "当然可以。做这道题需要用到二分法,我们可以将六个球分成两部分,每部分三个球,先将两堆都称一下,如果两堆重量相等,说明重的那个球在另外三个球中。接着我们将那三个球分成两堆,分别取两堆中的两个球出来称重,如果是一样重,则剩下一个球是重的;如果不一样重,则按照上面的方法,找到哪个球是重的。", "weight": 1}, {"prompt": "请告诉我一首好听的歌曲。", "response": "听说\"世界这么大还是遇见你\"很受欢迎,在抖音、快手等短视频平台上也是很火的。", "weight": 1}]
- "system"为选填字段,代表系统角色设定信息。
- "weight"为选填字段,默认为1,表示当前及历史轮次参与SFT精调,并对当前轮次计算loss;"weight"为0时,表示当前轮次不参与SFT精调的loss计算。
(二)文本生成-预训练Post-pretrain
特性领域的大规模无标注数据。
当前支持Prompt + Response 格式,以下将以jsonl格式文件为例,进行数据格式说明。所有支持的格式样例文件您可直接下载:
jsonl模板、docx模板,支持txt、pdf、docx、jsonl格式文件及包含上述文件类型的tar.gz/zip压缩包文件上传。
格式说明:
{"content": "面向不同的企业需求,千帆提供不同的功能服务。\n例如,智能对话、智能输入法等通用应用场景,可在千帆直接体验文心一言企业级推理云服务,并进行业务集成;\n细分领域电销场景的商品介绍、推广文章等需要对推理结果进行定制调整,则可在文心千帆使用模型在线微调训练功能,快速生成行业场景定制模型服务,满足用户特定需求。"}
一个content代表一条独立的样本,比如一篇完整的文章,一本独立的小说。在数据管理模块下的【数据清洗】、【数据分析】、【数据详情】查看入口下,以content维度进行管理和维护。
(三)文本生成-偏好对齐KTO
单轮或多轮的文本对话数据,每个提示语存在对应的正或负偏好回答。
当前支持Prompt + Chosen/Rejected 格式,以下将以jsonl格式文件为例,进行数据格式说明。所有支持的格式样例文件您可直接下载:
jsonl模板,支持jsonl格式文件及包含上述文件类型的tar.gz/zip压缩包文件上传。
(1)有标注样例(单轮对话)
格式说明:
[{"system":"你是一个人工智能助手。","user":"hello","rejected":"leave me alone"}]
[{"system":"你是一个人工智能助手。","user":"你好","chosen":"很高兴认识你"}]
"system"为选填字段,代表系统角色设定信息,每个样本的【Chosen】或【Rejected】字段全为非空即可。
(2)有标注样例(多轮对话)
格式说明:
[{"system":"你是一个人工智能助手。","user":"生成一个关于人工智能的标题吧。","assistant":"好的,给您生成一些标题:1) 人工智能的未来与挑战; 2) 机器学习在现代生活中的应用; 3) 从AI发展历程看未来发展趋势。"},{"user":"可以再给我一些具体的例子吗?","assistant":"当然,人工智能正在各个行业带来深远影响。以下是一些具体的例子:\n1. ** 医疗保健: ** AI用于医学影像分析, 帮助医生快速诊断疾病。 它还可以预测疾病风险, 个性化治疗方案, 并改善医疗保健的效率和精确度。\n2. ** 金融服务: ** 人工智能被用于制定风险模型, 预测市场走势, 进行高频交易, 以及提供智能投资建议。\n3. ** 制造业: ** 自动化和智能机器人改变了生产线, 提高了生产效率和产品质量。 AI还用于预测维护, 减少设备损坏和停机时间。\n4. ** 教育: ** AI个性化学习, 根据学生的学习风格和进度制定课程。 它还能提供定制化的教学资源和智能辅导。\n5. ** 交通运输: ** 自动驾驶汽车利用人工智能技术, 提高了道路安全, 并在未来可能改变整个交通系统。\n这些是人工智能在各个领域带来革命性变化的一些例子, 它们正在改变我们的生活方式, 提高效率, 并为未来开辟新的可能性。"},{"user":"会导致这些行业大量失业么?","chosen":"是的"}]
"system"为选填字段,代表系统角色设定信息,每个样本的【Chosen】或【Rejected】字段全为非空即可。
(四)文本生成-偏好对齐SimPO
单轮或多轮的文本对话数据,每个提示语存在对应的正负偏好回答。
当前支持Prompt + Chosen + Rejected 格式,以下将以jsonl格式文件为例,进行数据格式说明。所有支持的格式样例文件您可直接下载:
jsonl模板,支持jsonl格式文件及包含上述文件类型的tar.gz/zip压缩包文件上传。
(1)有标注样例(单轮对话)
格式说明:
[{"system":"你是一个人工智能助手。","user":"hello","chosen":"hi nice to meet you","rejected":"leave me alone"}]
"system"为选填字段,代表系统角色设定信息,每个样本的【Chosen】和【Rejected】字段全为非空即可。
(2)有标注样例(多轮对话)
格式说明:
[{"system":"你是一个人工智能助手。","user":"生成一个关于人工智能的标题吧。","assistant":"好的,给您生成一些标题:1) 人工智能的未来与挑战; 2) 机器学习在现代生活中的应用; 3) 从AI发展历程看未来发展趋势。"},{"user":"可以再给我一些具体的例子吗?","assistant":"当然,人工智能正在各个行业带来深远影响。以下是一些具体的例子:\n1. ** 医疗保健: ** AI用于医学影像分析, 帮助医生快速诊断疾病。 它还可以预测疾病风险, 个性化治疗方案, 并改善医疗保健的效率和精确度。\n2. ** 金融服务: ** 人工智能被用于制定风险模型, 预测市场走势, 进行高频交易, 以及提供智能投资建议。\n3. ** 制造业: ** 自动化和智能机器人改变了生产线, 提高了生产效率和产品质量。 AI还用于预测维护, 减少设备损坏和停机时间。\n4. ** 教育: ** AI个性化学习, 根据学生的学习风格和进度制定课程。 它还能提供定制化的教学资源和智能辅导。\n5. ** 交通运输: ** 自动驾驶汽车利用人工智能技术, 提高了道路安全, 并在未来可能改变整个交通系统。\n这些是人工智能在各个领域带来革命性变化的一些例子, 它们正在改变我们的生活方式, 提高效率, 并为未来开辟新的可能性。"},{"user":"会导致这些行业大量失业么?","chosen":"是的","rejected":"不是的"}]
"system"为选填字段,代表系统角色设定信息,每个样本的【Chosen】和【Rejected】字段全为非空即可。
(五)文本生成-偏好对齐DPO
单轮或多轮的文本对话数据,每个提示语存在对应的正负偏好回答。
当前支持Prompt + Chosen + Rejected 格式,以下将以jsonl格式文件为例,进行数据格式说明。所有支持的格式样例文件您可直接下载:
jsonl模板,支持jsonl格式文件及包含上述文件类型的tar.gz/zip压缩包文件上传。
(1)有标注样例(单轮对话)
格式说明:
[{"system":"你是一个人工智能助手。","user":"hello","chosen":"hi nice to meet you","rejected":"leave me alone"}]
"system"为选填字段,代表系统角色设定信息,每个样本的【Chosen】和【Rejected】字段全为非空即可。
(2)有标注样例(多轮对话)
格式说明:
[{"system":"你是一个人工智能助手。","user":"生成一个关于人工智能的标题吧。","assistant":"好的,给您生成一些标题:1) 人工智能的未来与挑战; 2) 机器学习在现代生活中的应用; 3) 从AI发展历程看未来发展趋势。"},{"user":"可以再给我一些具体的例子吗?","assistant":"当然,人工智能正在各个行业带来深远影响。以下是一些具体的例子:\n1. ** 医疗保健: ** AI用于医学影像分析, 帮助医生快速诊断疾病。 它还可以预测疾病风险, 个性化治疗方案, 并改善医疗保健的效率和精确度。\n2. ** 金融服务: ** 人工智能被用于制定风险模型, 预测市场走势, 进行高频交易, 以及提供智能投资建议。\n3. ** 制造业: ** 自动化和智能机器人改变了生产线, 提高了生产效率和产品质量。 AI还用于预测维护, 减少设备损坏和停机时间。\n4. ** 教育: ** AI个性化学习, 根据学生的学习风格和进度制定课程。 它还能提供定制化的教学资源和智能辅导。\n5. ** 交通运输: ** 自动驾驶汽车利用人工智能技术, 提高了道路安全, 并在未来可能改变整个交通系统。\n这些是人工智能在各个领域带来革命性变化的一些例子, 它们正在改变我们的生活方式, 提高效率, 并为未来开辟新的可能性。"},{"user":"会导致这些行业大量失业么?","chosen":"是的","rejected":"不是的"}]
"system"为选填字段,代表系统角色设定信息,每个样本的【Chosen】和【Rejected】字段全为非空即可。
(六)文本生成-偏好对齐RLHF
单轮或多轮的文本对话数据,单个提问对应多个已排序的回答。
当前支持Prompt + 多Response排序 格式,以下将以jsonl格式文件为例,进行数据格式说明。所有支持的格式样例文件您可直接下载:
jsonl模板,支持jsonl格式文件及包含上述文件类型的tar.gz/zip压缩包文件上传。
(1)有标注样例(单轮对话)
格式说明:
[{"system": "你是一个人工智能助手。", "prompt": "请根据下面的新闻生成摘要, 内容如下:新华社受权于18日全文播发修改后的《中华人民共和国立法法》,修改后的立法法分为“总则”“法律”“行政法规”“地方性法规、自治条例和单行条例、规章”“适用与备案审查”“附则”等6章,共计105条。\n生成摘要如下:", "response": [["修改后的立法法全文公布"], ["18日全文播发修改后的《中华人民共和国立法法》"], ["共计105条"]], "score": [2, 1, 0]}]
单个样本的"response", 需包含两个或两个以上的排序候选内容
"score"为整数,代表 "response" 各候选内容的偏好得分,得分越高表示偏好程度越高
(2)有标注样例(多轮对话)
格式说明:
[{"system": "你是一个人工智能助手。", "prompt": "生成一个关于人工智能的标题吧。", "response": [["好的,给您生成一些标题:1) 人工智能的未来与挑战; 2) 机器学习在现代生活中的应用; 3) 从AI发展历程看未来发展趋势。"]]}, {"prompt": "可以再给我一些具体的例子吗?", "response": [["当然可以,以下是几个例子:1) 人工智能如何助力人类健康; 2) 语音识别技术大盘点; 3) 深度学习在图像处理中的应用; 4) 基于人工智能的自动程序设计; 5) 人工智能时代的工作未来。"]]}, {"prompt": "我想了解一下机器学习是什么。", "response": [["机器学习是一门跨学科的学科,它使用计算机模拟或实现人类学习行为,通过不断地获取新的知识和技能,重新组织已有的知识结构,从而提高自身的性能。机器学习涉及多个学科,如概率论、统计学、逼近论、凸分析、算法复杂度理论等。\n\n机器学习的主要任务是指导计算机从数据中学习,然后利用经验来改善自身的性能,不需要进行明确的编程。机器学习算法会不断进行训练,从大型数据集中发现模式和相关性,然后根据数据分析结果做出最佳决策和预测。随着数据越来越多,机器学习应用的准确性也会越来越高。现在机器学习技术的应用范围非常广泛,比如家居生活、购物、娱乐媒体和医疗保健等。\n\n机器学习和人工智能是密不可分的关系,机器学习是人工智能的一个子集。人工智能是基于数据处理来做出决策和预测。通过机器学习算法,人工智能不仅能够处理数据,还能在不需要额外编程的情况下,利用这些数据进行学习,变得更加智能。人工智能是父集,包含了机器学习的所有子集。机器学习的分支包括深度学习和神经网络,它们是人工智能的重要组成部分。\n\n机器学习的工作原理是通过训练和优化算法来不断改进模型,使得模型能够更好地适应新数据和新情境。这个过程通常包括数据预处理、特征提取、模型训练、评估和调整等步骤。机器学习的应用范围非常广泛,比如语音识别、图像识别、自然语言处理、推荐系统等。"], ["机器学习是人工智能的一个分支,它是指让机器从数据中学习和识别模式、规律,进而提高其自身的能力,而不是直接进行编程或人工干预。例如,你收到的垃圾邮件在你提交给系统进行训练后,系统就能够自动判断是否为垃圾邮件。这就是机器学习中的一个例子。"]], "score": [1, 0]}]
单个样本最后一轮对话的"response", 需包含两个或两个以上的排序候选内容。
"score"为整数,代表最后一轮对话 "response" 各候选内容的偏好得分,得分越高表示偏好程度越高。
(七)图像生成-有监督微调SFT
文生图对话数据,文本提问与图片回答一一对应。
当前支持Prompt + 图片 格式,以下将以jsonl格式文件为例,进行数据格式说明。所有支持的格式样例文件您可直接下载:
已标注模板、未标注模板,支持jpg、png、bmp、jpeg格式文件及包含上述格式文件及可选同名json标注文件的tar.gz/zip压缩包上传,单张jpg、png、bmp、jpeg图片大小限制在14M以内,同时压缩包源文件大小不超过5G,所有文件数量不超过1000:
- json标注文件的文本内容由数字、中英文、中/下划线组成。
- 图片长宽比在3:1以内,最长边小于4096px,最短边大于30px。
已标注图片格式说明:
每张图片对应一个标注json,示例如下:
{"prompt": "飞机上的一排座位空空的。"}
(八)图像理解-有监督微调SFT
单轮或多轮的图文对话数据。
当前支持Prompt + Image + Response 格式,以下将以jsonl格式文件为例,进行数据格式说明。所有支持的格式样例文件您可直接下载:
压缩包模板,压缩包需包含对话样本文件及关联的图片集合,压缩包文件大小不超过5G,所有文件数量不超过1000:
- 图像文件支持jpg、png、jpeg、webp格式。
- 单张图片大小限制在100M以内。
格式说明:
图中chat(单图对话)示例如下:
{"images":["images/海报.jpg"],"messages":[{"role":"system","content":"作为一个资深的影评人,请回答下面的问题"},{"role":"user","content":"图片<ImageHere>中色彩的运用如何影响海报的整体氛围?"},{"role":"assistant","content":"图片中色彩的运用极大地影响了海报的整体氛围。在图片中,绿色和金色的主导色调与背景上的成堆美元钞票暗示出一种奇幻、轻松和奢华的氛围,与电影《Brewster’s Millions》中财富和过度消费的主题一致。明亮的黄色和绿色标题进一步强化了这种奢华和过度的情绪,暗示着与快速消费大量资金相关的喜剧性质"},{"role":"user","content":"图片中有哪些元素显示出它所代表的电影类型?"},{"role":"assistant","content":"图片中显示出的电影类型通过各种视觉元素体现出来。在图片中,喜剧类型显而易见,通过幽默的视觉效果传达出来,其中一个角色震惊不已,另一个角色似乎正在高兴地跳进一堆钱中。角色们随意夸张的姿态进一步强化了关于财务奇想和极端财富的喜剧色调。"}]}
{"images":["images/图标.jpeg"],"messages":[{"role":"system","content":"作为一个插画师,请回答下面的问题"},{"role":"user","content":"看这张图片: <ImageHere> 描述其中的内容?"},{"role":"assistant","content":"这幅图片展示了一组丰富多彩、立体的图标,代表着各种社交媒体平台和网络服务。这些图标分布在白色背景上,呈现出一种休闲、数字化的景观感觉。每个图标都采用独特的色彩方案和设计风格,对应着它所代表的品牌。\n\n从左上角开始,有一个红白设计的图标,类似于YouTube的标志。它旁边是一个蓝绿设计的白色图标,可能与社交媒体平台或网络服务相关联。在它们的右边,有一个黑色图标,白色设计,可能代表另一个服务或平台。\n\n更向右,有一个蓝白设计的图标,可能代表另一个社交媒体平台。在它下面,有一个绿白设计的图标,可能与不同的服务或品牌相关。\n\n在图片中心,有一个红白设计的白色图标,很可能是YouTube的标志。在它右边,有一个蓝白设计的图标,可能代表另一个服务或平台。"},{"role":"user","content":"这张图片的特色之处?"},{"role":"assistant","content":"这幅图片是一幅数字插图,旨在视觉上吸引人,重点是鲜艳的颜色和各种服务的易识别标志。图标的排列暗示了数字连接和在线平台多样性的主题。"}]}
{"images":["images/恐龙.jpeg"],"messages":[{"role":"user","content":"描述这张图片中的内容: <ImageHere>"},{"role":"assistant","content":"这幅图片是一幅黑白线条画,描绘了一只卡通风格的恐龙。恐龙看起来是一只友好、拟人化的生物,拥有一个大大的圆头、两只小眼睛和一个宽宽的露齿笑容。它有一个明显的鼻子和一只小小的尖耳朵。恐龙的身体修长,尾巴上有几根尖刺。它有两只手臂,每只手臂末端有三根手指,还站立在两条腿上。恐龙双手握着一根高尔夫球杆,似乎是在打高尔夫。高尔夫球杆上有把手和杆头,杆头上有一系列小孔,这是高尔夫球杆的典型设计。图片的背景是纯白色,与黑色线条的绘画形成对比。"},{"role":"user","content":"图片中有汉字吗?"},{"role":"assistant","content":"图片中没有汉字"}]}
"system"为选填字段,代表系统角色设定信息。
-
"images" 声明当前样本的图片路径集合
- 单图:[string]
- 多图:[string1, string2, ……]
- images的使用不是必须的,数据集也可以仅是单纯的文本对话
- String 只是图片的相对路径
-
多轮对话中,涉及同时调用多张图片时,使用图片占位符 < Image1Here >、 < Image2Here >、......等来指定图像顺序和位置,从1开始计数.
涉及调用多张图片时,您可使用图片占位符< Image1Here >、< Image2Here >来指定多张图片的顺序及位置(图片索引从1开始)- 单图场景同样使用占位符< ImageHere >进行指代
示例样本中的单/多轮对话
平台支持下载示例样本完成后续模型训练,不同的样本示例可在Prompt+Response和prompt集手册文档中进行下载。
什么是单轮对话
单轮对话和多轮对话是两种不同的对话形式,它们分别指的是在一次对话中只涉及一个问题和对应的回答,以及在一次对话中涉及多个问题和对应的回答。
在单轮对话中,通常只涉及一个核心问题,对话的双方只需要针对这个问题进行回答和交流,不需要对之前的回答进行进一步的追问或解释。这种对话形式通常适用于一些简单的交流场景,如咨询信息、请求服务等。
场景示例:简单问题咨询
提问:千帆ModelBuilder是哪个公司的开发的大模型平台?
回答:千帆ModelBuilder,是百度开发的企业级大模型生产平台。
什么是多轮对话
在多轮对话中,对话的双方需要在一系列问题中进行多次交流和回答,每次回答都可能引出下一个问题。这种对话形式通常适用于一些复杂的交流场景,如咨询专家意见、解决问题等。
场景示例:关联性问题咨询
提问:北京西站到丰台科技园(地铁站)该怎么走?
回答:推荐您搭乘北京地铁9号线(郭公庄方向),7站地后丰台科技园站下车即可。您也可以使用其他交通工具,如出租车、网约车等,根据交通状况和舒适度选择适合自己的方式。
提问:这是最省钱的路线吗?
回答:您可以选择骑乘共享单车,绿色出行。路途较远,请您注意骑乘安全。
提问:今天天气适合骑车过去吗?
回答:为您查询到今日北京市丰台区未来8小时内气温均值26摄氏度,降水概率百分之3%,体感温度良好,适合骑乘出行。
在进行多轮对话的监督式微调(SFT)时,可能会遇到某些轮次对话效果不理想的情况,如下方示例中的第二轮,模型并未按照指定要求热情地回答问题。如直接使用全部数据进行精调,可能会影响最终的模型性能:
[{"prompt":"可以请你用热情的语气回答我的问题吗?", "response":"当然可以,请说出你的问题"},
{"prompt":"法国的首都是哪里", "response":"巴黎"},
{"prompt":"请你用热情的语气认真回答", "response":"哦!是巴黎,浪漫之都,那儿有很多漂亮的建筑,有机会你一定要去看看!"}]
为解决此问题,通过在多轮对话数据集中配置weight
字段,可在SFT精调时选择性跳过特定轮次的模型回答,使之不参与损失函数(loss)的计算过程,避免模型在训练过程中学习到错误信息。
示例下载(查看多轮对话示例):txt模板、xlsx模板、csv模板、jsonl模板
取值:0或1,0表示该轮对话不参与SFT loss计算,默认值为1
- 格式示例
[{"prompt":"可以请你用热情的语气回答我的问题吗?", "response":"当然可以,请说出你的问题", "weight":1},
{"prompt":"法国的首都是哪里", "response":"巴黎", "weight":0},
{"prompt":"请你用热情的语气认真回答", "response":"哦!是巴黎,浪漫之都,那儿有很多漂亮的建筑,有机会你一定要去看看!", "weight":1}]
注意:含weight字段的数据仅在ERNIE Tiny、ERNIE Character、ERNIE Lite 0308、ERNIE Lite128K-0419和ERNIE Speed模型精调SFT中可用,该字段对其他模型开放的情况,请您时刻关注官方说明。
单轮对话示例
平台已接入不同类型的数据样本示例。
我们以有标注的非排序文本数据示例为例,向您展示单轮对话。
示例文件上传平台后的部分显示如下:
其中抽取部分示例内容:
- prompt: 请根据下面的新闻生成摘要, 内容如下:新华社受权于18日全文播发修改后的《中华人民共和国立法法》,修改后的立法法分为“总则”“法律”“行政法规”“地方性法规、自治条例和单行条例、规章”“适用与备案审查”“附则”等6章,共计105条。
response: 修改后的立法法全文公布 - prompt: 请根据下面的新闻生成摘要, 内容如下:一辆小轿车,一名司机,竟造成9死24伤。日前,深圳市交警局对事故进行通报:从目前证据看,事故系司机超速行驶且操作不当导致。目前24名伤员已有6名治愈出院,其余正接受治疗,预计事故赔偿费或超一千万元。
response: 深圳机场9死24伤续:司机全责赔偿或超千万 - 以上两个对话均为一一对应的单轮对话内容,针对核心问题生成应答,不需要进行上下文进行追问和反馈,数据单轮对话样本。注意:单轮对话支持排序文本数据,详细导入操作可查看创建数据集相关内容。
多轮对话示例
我们以有标注的排序文本数据样例为例,向您展示多轮对话。
示例文件上传平台后的部分显示如下:
其中抽取部分示例内容:
- prompt:生成一个关于人工智能的标题吧。
response1:好的,给您生成一些标题:1) 人工智能的未来与挑战; 2) 机器学习在现代生活中的应用; 3) 从AI发展历程看未来发展趋势。
response2:人工智能革命:如何加速AI发展并实现企业数字化转型 - prompt:可以再给我一些具体的例子吗?
response1:当然可以,以下是几个例子:1) 人工智能如何助力人类健康; 2) 语音识别技术大盘点; 3) 深度学习在图像处理中的应用; 4) 基于人工智能的自动程序设计; 5) 人工智能时代的工作未来。
response2:当然可以,例如自然语言处理技术的应用、医疗领域的智能诊断、智能家居的智能化控制等等。这些都是人工智能在现实中的具体应用。 - 以上两个对话为联系上下文的多轮对话内容,如第二个“prompt”是基于第一个“prompt”衍生的迭代问题,应答(标注)则基于上文内容,给出关联性输出回应。注意:response1和2是基于本次排序类文本数据生成的排序应答,上传排序类数据集,每个问答对的response不得少于2个。
本章节使用案例为有标注信息样本内容,如您导入未标注信息数据,response即为您个人标注,您可至在线标注完成相关操作。操作步骤参考在线标注使用说明。