导入Prompt+Response数据
登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入主任务界面。
数据格式说明
Prompt+Response:单轮或多轮的文本对话数据,提问与回答一一对应,支持系统角色设定。适用于模型精调的有监督微调SFT或偏好对齐RFT。
- 无标注样例
# "system"为选填字段,代表系统角色设定信息。
[{"system":"你是一个专业的新闻摘要撰写助手,擅长使用简洁明了的语言来提炼核心信息。","prompt":"请根据下面的新闻生成摘要, 内容如下:据315晚会报道...\n请生成摘要。"}]
平台支持上传无标注样例,您可在平台上进行数据标注,标注方式包括在线标注、多人标注和众测标注。只有标注完成的数据集,才能被发布并用于训练。
- 单轮对话(含标注)
# "system"为选填字段,代表系统角色设定信息。
[{"system":"你是一个AI学习助手。","prompt":"我想了解一下机器学习是什么。","response":"机器学习是人工智能的一个分支..."}]
- 多轮对话(含标注)
在多轮对话的监督式微调(SFT)中,为避免模型学习错误信息,可以通过为对话数据集配置
weight
字段,选择性地跳过特定轮次的回答,使其不参与损失函数的计算,从而避免影响模型性能。
注意:含
weight
字段的数据仅在ERNIE Tiny
、ERNIE Character
、ERNIE Lite 0308
、ERNIE Lite128K-0419
和ERNIE Speed
模型精调SFT中可用,该字段对其他模型开放的情况,请您时刻关注官方说明。
# "weight"为选填字段,默认为1,表示当前及历史轮次参与SFT精调,并对当前轮次计算loss;"weight"为0时,表示当前轮次不参与SFT精调的loss计算。
[{"prompt":"生成一首诗歌吧。","response":"好的,请问你想让这首诗歌关于什么主题呢?","weight":0},
{"prompt":"主题关于秋天。","response":"秋风轻抚过金黄的稻田...","weight":1}]
平台支持上传多轮对话,但每个样例中的对话限制不超过150轮,超出部分将会被截断。
- 单轮对话(含思维链)
# "system"为选填字段,代表系统角色设定信息。
[{"system": "你是一名新闻行业从业者", "prompt": "请根据下面的新闻生成摘要, 内容如下:新华社受权于18日全文播发修改后的《中华人民共和国立法法》。\n生成摘要如下:", "reasoning_content":"用户想要生成新闻摘要,需要保持内容严谨整洁。","response": "修改后的立法法全文公布。"}]
- 多轮对话(含思维链)
# "weight"为选填字段,默认为1,表示当前及历史轮次参与SFT精调,并对当前轮次计算loss;"weight"为0时,表示当前轮次不参与SFT精调的loss计算。
[{"system": "你是一个旅游规划小助手,可以帮助游客们做攻略", "prompt": "介绍一下北京吧", "response": "北京,简称“京”,古称燕京。", "weight": 1}, {"prompt": "我在上海,周末可以去哪里玩?", "reasoning_content":"用户想要生成一个上海旅游攻略", "response": "上海是一个充满活力和文化氛围的城市,有很多适合周末游玩的地方。以下是几个值得推荐的地方...", "weight": 1}]
思维链数据精调
思维链模型在处理复杂推理任务时,通常能提供更清晰的推理路径和更准确的结果。为了充分发挥思维链模型的能力,建议在进行精调时选择适合的场景和方法。
适合思维链精调的典型场景
思维链模型尤其适用于时延要求较低的复杂推理任务:
- 数学推理:例如数学问题求解、数值计算、定理证明等。
- 逻辑推理:例如逻辑推演、因果关系推断、逻辑谜题解析等。
- 意图识别:例如复杂对话、隐晦文本中的用户意图识别与理解。
- 代码生成:例如编程代码的自动生成、代码纠错与优化等。
- 任务规划:例如多步骤操作规划、流程自动化等场景。
推荐策略
- 使用包含思维链(
reasoning_content
)的数据对已具备思维链能力的模型进行精调。
慎用策略
- 使用带有思维链的数据精调不支持思维链的模型,模型可能无法有效学习到思维链能力。
- 使用不含思维链的数据精调支持思维链的模型,模型可能失去思维链能力。
数据文件要求
文件类型 | 无标注数据 | 有标注数据(不含思维链) | 有标注数据(含思维链) |
---|---|---|---|
jsonl文件 |
![]() |
![]() |
![]() |
xlsx文件 |
![]() |
![]() |
![]() |
csv文件 |
![]() |
![]() |
![]() |
txt文件 |
![]() |
![]() |
- |
压缩包 |
|
- 文件编码支持UTF-8。
数据导入方式
创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。

您可以使用以下方案上传数据集:本地导入、BOS导入、分享链接导入、平台已有数据集。
导入方式 | 存储类型:对象存储BOS | 存储类型:平台共享存储 |
---|---|---|
本地导入 |
|
|
BOS导入 |
![]() |
![]() |
分享链接导入 |
![]() |
![]() |
平台已有数据集 |
|
|
FAQ挖掘
基于导入文档通过大模型服务自动挖掘生产问答对,需配置服务及应用。大模型挖掘问答对数量取决于您的语料文档字符数量。平均而言,每2000字符大约可挖掘出10个问答对。
其中服务为
ERNIE-4.0-8K
、ERNIE-3.5-8K
、ERNIE-Speed-8K
、ERNIE-Lite-8k
,四种服务选择其中一项,上传文本都会进行预置服务标注,可在数据标注中查看详情。
支持以下三种导入方式:
导入方式 | 存储类型:对象存储BOS | 存储类型:平台共享存储 |
---|---|---|
本地导入 |
|
|
BOS导入 |
|
|
分享链接导入 |
|
|
自定义字段
system
、prompt
、response
和 weight
是平台预留字段,会参与SFT模型精调。
除这些预留字段外,Prompt+Response数据集还额外支持您在数据中扩展自定义业务字段,为数据集样本附加多维度元信息,例如实际业务指标、终端用户反馈和分类标签,可在数据准备过程中指导您更好地进行数据洞察与处理。
注:自定义字段主要用于在数据洞察环节辅助样本筛选与处理,不会参与到模型精调环节;自定义字段的键名需由英文和数字组成,不支持中文字符
jsonl格式
在jsonl格式的SFT单轮对话数据集中,您可以在每个样本对话后添加自定义字段。在多轮对话数据集中,您可以在首轮对话后添加包含样本元信息的自定义字段。
以知识问答场景的单轮对话数据集为例,您可以增加 area
和 complexity
两个键值对,为每个样本附加问题领域和难度信息。
[{"prompt":"什么是大语言模型?","response":"大语言模型(Large Language Model,简称LLM)...","area":"人工智能","complexity":"中等"}]
[{"prompt":"请你证明费马大定理","response":"由于费马大定理的证明非常复杂且涉及高级的数学概念,我无法在这里给出一个完整的证明过程。","area":"数学","complexity":"困难"}]
[{"prompt":"热胀冷缩是什么导致的?","response":"热胀冷缩现象是物质的一种基本性质,其主要原因与物质内部的微观结构以及粒子间的相互作用有关。","area":"物理","complexity":"简单"}]
xlsx和csv格式
您也可以选择在xlsx和csv格式的SFT数据集中添加自定义字段,数据集首行的列名为自定义字段的键名(需由英文和数字组成)。以xlsx格式为例,上述样本可以通过添加 area
和 complexity
两列,来代表自定义字段。
数据洞察
将完成上传后,在SFT数据洞察环节,您可以利用 area
字段统计问题领域分布,或利用 complexity
字段统计问题困难度分布,以帮助您更好地“诊断”SFT数据集,从而对数据进行更针对性处理。
您的自定义字段可能会包括实际业务指标、终端用户反馈或分类标签等。结合自定义字段进行筛选,您可以精准锁定感兴趣的样本,便于进一步编辑和处理,助力数据飞轮场景的精调迭代。