提示词模板拼接
什么是提示词模板?
提示词模板是一种预先设计好的文本结构,用于引导大模型生成特定类型或格式的文本。它通常包含固定文本与可替换变量:固定文本奠定任务基调、明确指令方向,变量部分则按需填充不同内容,灵活生成具体的提示词,满足多样化的任务需求。
在大模型精调阶段,将结构化的提示词模板整合进训练数据,能让模型快速理解任务核心要求,高效地学习任务范式,从而提升训练效果。而在模型推理阶段,沿用与训练时一致的提示词模板,不仅可以增强模型响应的稳定性,还有助于提升输出结果的准确性和贴合度,有效避免模型生成偏离预期的内容。
如何在训练数据中拼接提示词模板?
在大语言模型精调过程中,训练数据的质量对精调效果起着至关重要的作用。在您的原始数据集中,Prompt 字段可能并非是结构完整、格式统一的规范提示词。针对以下两种场景,建议您使用提示词模板拼接功能,将原始数据与预设模板相结合,构造结构清晰、格式规范的高质量训练数据,有利于提升模型精调效果。
无论是单变量还是多变量场景,您上传至平台的原始数据集必须包含非空的prompt/user字段,且所有字段名均由英文和数字组成。
数据文件支持jsonl、xlsx文件。
单变量场景
您原始数据集的Prompt字段只记录了用户的原始问题,缺少了背景信息、任务要求、输出风格、限制条件等结构,这可能会影响模型的精调效果。
例如,您的业务需要训练大模型友好地回复客户投诉,为此在平台上传了一个客户经理回复投诉的对话数据集,样例如下:
[{"prompt": "我上周五通过手机银行转了5000元给朋友,但对方现在还没收到。能帮忙查一下是哪里延迟了吗?", "response": "您好!非常理解您着急的心情,转账没及时到账确实会让人担心。请您放心,我马上帮您查清楚。"}]
[{"prompt": "在ATM取1万现金收了20手续费,但官网写着‘本月免手续费’,为什么扣我钱?", "response": "您好!非常感谢您反馈这个问题,我完全理解您的不满——官网既然写了“本月免手续费”,确实不应该扣您这笔钱。请您放心,我一定帮您查清楚原因,并尽快解决!"}]
样例数据均由DeepSeek R1生成,不涉及真实信息。
将该对话数据集直接用于大模型精调,精调后的模型可能无法准确理解任务逻辑,可能出现措辞不当、语气不友好、业务场景理解不准确等问题。因此,需要准备一个包含背景信息、任务要求、输出风格、限制条件等信息的提示词模板,将客诉信息与其拼接,形成指令清晰的结构化Prompt。您可在提示词模板拼接任务中,参照下方内容填写对应字段 :
拼接提示词模板后的数据集样例如下:
使用处理后的数据集进行精调,模型回答能更加符合客户经理的身份和回答规范,获得更好的训练效果。
多变量场景
您的原始业务数据是记录了多个变量的Excel表,无法直接用于训练,需要将这些变量和背景信息、任务要求、输出风格、限制条件等共同组合成完整规范的Prompt。
在多变量场景中,除 Prompt 字段外,其余变量需借助自定义字段进行存储。您可根据所选数据格式,查看对应的自定义字段导入要求:Prompt+Response数据,Role数据。
例如,您是一家游戏公司的算法同学,需要训练大模型代入游戏角色与玩家对话,为此在平台上传了一份游戏角色信息的数据集,样例如下:
character | age | prompt(此处的"prompt"字段代表人物经历"experience") |
---|---|---|
谢林·霍姆斯 | 37岁 | 警局的刑侦顾问,以惊人的观察力和逻辑推演能力闻名。他出身于没落学术世家,沉迷用演绎法破解罪案以重建家族尊严。日常用烟斗烟草排列案件线索,能通过袖口磨损判断嫌疑人的职业,却总记不住邻居养了七年的牧羊犬名字。 |
约翰·沃森 | 38岁 | 曾是医学院最年轻的讲师,如今是一名纪实作家,用冷峻的医学笔触记录霍姆斯的破案过程。随身笔记本里夹着泛黄的课堂考勤表,那是他教学生涯唯一保留的物件,偶尔会对着缺勤名单上某个学生的空白栏发呆。 |
样例数据均由DeepSeek R1生成,不涉及真实信息。
这份数据集仅包含角色信息的相关字段,缺乏完整的提示词,无法直接用于大模型精调。因此,需要将角色各个信息拼接成提示词,并补充背景信息、任务要求、输出风格、限制条件等信息,形成信息完整的结构化Prompt。您可在提示词模板拼接任务中,参照下方内容填写对应字段 :
拼接提示词模板后的数据集样例如下:
通过提示词模板拼接功能,您可以将多个角色信息的字段快速拼接成优质的训练数据。精调后大模型能更准确地把握任务需求,生成更优质的对话。
快速完成提示词模板拼接
我们以较为复杂的多变量数据为例,详细介绍如何使用平台的提示词模板拼接功能。
场景示例:游戏公司需要训练大模型去为游戏角色生成符合人设的对话
上传原始数据集
登录到千帆ModelBuilder操作台,在左侧功能列选择通用数据集,进入通用数据集管理主任务界面。
点击【创建数据集】在指定数据集名称、数据用途、数据格式等基本信息后,发起数据上传并指定目标存储位置,由此完成数据集创建。
上传的数据样例如下(您可以根据业务场景选择其一)。要求必须包含非空的prompt字段,字段名需由英文和数字组成。
- Excel数据集
character | age | prompt(此处的"prompt"字段代表人物经历"experience") |
---|---|---|
谢林·霍姆斯 | 37岁 | 警局的刑侦顾问,以惊人的观察力和逻辑推演能力闻名。他出身于没落学术世家,沉迷用演绎法破解罪案以重建家族尊严。日常用烟斗烟草排列案件线索,能通过袖口磨损判断嫌疑人的职业,却总记不住邻居养了七年的牧羊犬名字。 |
约翰·沃森 | 38岁 | 曾是医学院最年轻的讲师,如今是一名纪实作家,用冷峻的医学笔触记录霍姆斯的破案过程。随身笔记本里夹着泛黄的课堂考勤表,那是他教学生涯唯一保留的物件,偶尔会对着缺勤名单上某个学生的空白栏发呆。 |
- jsonl数据集
# 此处的"prompt"字段代表"experience"(人物经历)
[{"character": "谢林·霍姆斯", "age": "37岁", "prompt": "警局的刑侦顾问,以惊人的观察力和逻辑推演能力闻名。他出身于没落学术世家,沉迷用演绎法破解罪案以重建家族尊严。日常用烟斗烟草排列案件线索,能通过袖口磨损判断嫌疑人的职业,却总记不住邻居养了七年的牧羊犬名字。\n 请你扮演该角色开启对话。"}]
[{"character": "约翰·沃森", "age": "38岁", "prompt": "曾是医学院最年轻的讲师,如今是一名纪实作家,用冷峻的医学笔触记录霍姆斯的破案过程。随身笔记本里夹着泛黄的课堂考勤表,那是他教学生涯唯一保留的物件,偶尔会对着缺勤名单上某个学生的空白栏发呆。\n 请你扮演该角色开启对话。"}]
进入数据洞察
登录到本平台,在左侧功能列数据处理中选择数据洞察与处理,进入数据洞察的主任务界面,选择对应数据集,选择“开始使用”
创建提示词模板拼接任务
进入数据洞察主界面,您可以通过点击【提示词模板拼接】按钮,创建提示词模板拼接任务
“另存为”和“提示词模板拼接”的生效样本范围:
- 未进行筛选和勾选时,点击按钮会另存/拼接全部数据;
- 有筛选条件且未勾选样本时,点击按钮会另存/拼接筛选后的数据;
- 有勾选样本时,点击按钮会另存/拼接已勾选数据。
1. 填写任务名称
自定义【任务名称】,支持中英文、数字、下划线(_),2-50个字符,不能以下划线为开头。
2. 填写模板内容
在【模板内容】对应的文本框中,填写提示词模板。可以使用 {{variableName}} 格式的文本在提示词模板中添加变量,变量名会实时显示在【变量映射】当中。变量名⻓度应为2-30,支持英文、数字、下划线(_),且不能以数字开头。
当前场景下填写的模板内容如下:
你是一位具备沉浸式表演能力的角色扮演专家,特别擅长通过细腻的语言和情感表达还原角色本质。
你的任务是扮演指定的角色,生成符合人物设定的对话。
当前需要你完全代入角色{{character}},角色信息如下:
年龄:{{age}},人物经历:{{experience}}
你在扮演角色时必须遵循以下要求:严格遵循角色背景设定,保持人设一致性;对话需体现角色独特的思维方式和经历烙印;通过语言风格(如措辞/句式/修辞)展现人物性格。
请严格依照以下格式生成对话:【动作/神态】"台词"(语气说明)。
请你扮演该角色开启对话。
3. 设置变量映射
在变量映射中,为模板中的每个变量选择对应的数据集字段(即被洞察数据的表头信息)。拼接时,系统会使用所选字段的值来替换提示词模板中的变量名,从而实现动态拼接。
4. 保存至目标字段
选择您想要将拼接结果保存到原数据集的哪一个字段,支持选择System字段或某轮次的Prompt/User字段,发起任务并成功完成后,目标字段已有内容将被拼接结果覆盖。
5. 选择处理后数据集
选择处理后数据集,用于存放提示词模板拼接后的新数据。
6. 发起任务
所有信息填写完成后,点击发起任务,任务发起成功后会进入【处理任务列表】。
查看提示词模板拼接任务
点击【处理任务列表】,可以在右边栏列表查看所有提示词模板拼接任务。支持对所有任务进行删除操作,对于运行中但不想继续进行的任务,可以点击【终止任务】快速结束任务,对于已完成的任务可以点击【开始洞察】快速洞察新数据。
![]() |
![]() |
提示词模板快捷复用
1. 另存至自制模板
如果您希望本次自制的提示词模板能够重复使用,可以选择另存至自制模板。勾选【另存至自制模板】,会显示【模板名称】【模板标签】,您可以自行配置。
任务成功发起后会在 Prompt工程-Prompt模板-自制模板 位置新增一个提示词模板,以供您之后复用。
2. 使用已有自制模板
平台提供了提示词模板的纳管功能。除了手动填写提示词模板外,如果您在平台上已有合适的提示词模板,也可以选择使用已有自制模板。点击【使用已有自制模板】,选择后可导入 Prompt模板-自制模板 中的内容。