导入Prompt+Response数据
登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入主任务界面。
数据格式说明
Prompt+Response:单轮或多轮的文本对话数据,提问与回答一一对应,支持系统角色设定。适用于模型精调的SFT大语言模型训练。
- 无标注样例
# "system"为选填字段,代表系统角色设定信息。
[{"system":"你是一个专业的新闻摘要撰写助手,擅长使用简洁明了的语言来提炼核心信息。","prompt":"请根据下面的新闻生成摘要, 内容如下:据315晚会报道...\n请生成摘要。"}]
平台支持上传无标注样例,您可在平台上进行数据标注,标注方式包括在线标注、多人标注和众测标注。只有标注完成的数据集,才能被发布并用于训练。
- 单轮对话(含标注)
# "system"为选填字段,代表系统角色设定信息。
[{"system":"你是一个AI学习助手。","prompt":"我想了解一下机器学习是什么。","response":"机器学习是人工智能的一个分支..."}]
- 多轮对话(含标注)
在多轮对话的监督式微调(SFT)中,为避免模型学习错误信息,可以通过为对话数据集配置
weight
字段,选择性地跳过特定轮次的回答,使其不参与损失函数的计算,从而避免影响模型性能。
注意:含weight字段的数据仅在ERNIE Tiny、ERNIE Character、ERNIE Lite 0308、ERNIE Lite128K-0419和ERNIE Speed模型精调SFT中可用,该字段对其他模型开放的情况,请您时刻关注官方说明。
# "weight"为选填字段,默认为1,表示当前及历史轮次参与SFT精调,并对当前轮次计算loss;"weight"为0时,表示当前轮次不参与SFT精调的loss计算。
[{"prompt":"生成一首诗歌吧。","response":"好的,请问你想让这首诗歌关于什么主题呢?","weight":0},
{"prompt":"主题关于秋天。","response":"秋风轻抚过金黄的稻田...","weight":1}]
平台支持上传多轮对话,但每个样例中的对话限制不超过150轮,超出部分将会被截断。
数据文件要求
文件类型 | 无标注数据 | 有标注数据 |
---|---|---|
jsonl文件 |
|
|
xlsx文件 |
|
|
csv文件 |
|
|
txt文件 |
|
|
压缩包 |
|
|
- 文件编码支持UTF-8。
数据导入方式
创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
您可以使用以下方案上传数据集:本地导入、BOS导入、分享链接导入、平台已有数据集。
导入方式 | 文件限制 |
---|---|
本地导入 |
|
BOS导入 |
|
分享链接导入 |
|
平台已有数据集 |
|
FAQ挖掘
基于导入文档通过大模型服务自动挖掘生产问答对,需配置服务及应用。大模型挖掘问答对数量取决于您的语料文档字符数量。平均而言,每2000字符大约可挖掘出10个问答对。
其中服务为ERNIE-4.0-8K、ERNIE-3.5-8K、ERNIE-Speed-8K、ERNIE-Lite-8k,四种服务选择其中一项,上传文本都会进行预置服务标注,可在数据标注中查看详情。
支持以下三种导入方式:
导入格式 | 导入格式 |
---|---|
本地导入 |
|
BOS导入 |
|
分享链接导入 |
|
自定义字段
"System"、"Prompt"、"Response"和"Weight"是平台预留字段,会参与SFT模型精调。
除这些预留字段外,Prompt+Response数据集还额外支持您在数据中扩展自定义业务字段,为数据集样本附加多维度元信息,例如实际业务指标、终端用户反馈和分类标签,可在数据准备过程中指导您更好地进行数据洞察与处理。
注:自定义字段主要用于在数据洞察环节辅助样本筛选与处理,不会参与到模型精调环节;自定义字段的键名需由英文和数字组成,不支持中文字符
jsonl格式
在jsonl格式的SFT单轮对话数据集中,您可以在每个样本对话后添加自定义字段。在多轮对话数据集中,您可以在首轮对话后添加包含样本元信息的自定义字段。
以知识问答场景的单轮对话数据集为例,您可以增加“area”和“complexity”两个键值对,为每个样本附加问题领域和难度信息。
[{"prompt":"什么是大语言模型?","response":"大语言模型(Large Language Model,简称LLM)...","area":"人工智能","complexity":"中等"}]
[{"prompt":"请你证明费马大定理","response":"由于费马大定理的证明非常复杂且涉及高级的数学概念,我无法在这里给出一个完整的证明过程。","area":"数学","complexity":"困难"}]
[{"prompt":"热胀冷缩是什么导致的?","response":"热胀冷缩现象是物质的一种基本性质,其主要原因与物质内部的微观结构以及粒子间的相互作用有关。","area":"物理","complexity":"简单"}]
xlsx和csv格式
您也可以选择在xlsx和csv格式的SFT数据集中添加自定义字段,数据集首行的列名为自定义字段的键名(需由英文和数字组成)。以xlsx格式为例,上述样本可以通过添加“area”和“complexity”两列,来代表自定义字段。
数据洞察
将完成上传后,在SFT数据洞察环节,您可以利用“area”字段统计问题领域分布,或利用“complexity”字段统计问题困难度分布,以帮助您更好地“诊断”SFT数据集,从而对数据进行更针对性处理。
您的自定义字段可能会包括实际业务指标、终端用户反馈或分类标签等。结合自定义字段进行筛选,您可以精准锁定感兴趣的样本,便于进一步编辑和处理,助力数据飞轮场景的精调迭代。