小说人物角色扮演
大模型精调 最佳实践与分享 已接入本样板视频教程,点击获取!
一、应用场景介绍
大模型角色扮演,本质上是让大模型扮演某个特定角色与用户对话,比如扮演西游记中的孙悟空、三国中的诸葛亮等。在游戏、小说场景,大模型凭借强大的语言理解能力和流畅自然交互方式通过角色扮演为用户带来更高效更新奇的体验。为了让用户沉浸式地与角色予以互动,不断提升游戏或小说产品留存率和粘性,就需要大模型的输出更具有情感温度和画面感,同时输出更符合角色设定,例如符合角色的年龄、性别、性格、说话语气等。
本文以名著小说角色扮演为例,针对直接调用大模型产生的效果问题进行诊断,并通过SFT精调模型予以有效解决。如果您的场景具有相似性,可参考如下方法精调出效果更佳的角色扮演模型;如果您想快速体验精调流程与角色扮演效果,可以一键克隆训练数据和训练参数,快速上手体验。
二、效果难点与问题
角色扮演场景对于用户而言,更需要的是有温度、有感情、符合人设的虚拟角色。但是在体验通用基础大模型时,总会遇到如下效果问题,带来线上用户意见反馈。
我们直接调用市面主流超大大模型体验效果,请大模型扮演《西游记》的孙悟空进行对话,发现效果有很多不及预期,举例如:
问题1:大模型输出很AI化,不像是真实的人物角色,用户无法投入与其对话。
大模型输出口吻较为流程化,和孙悟空人设不符,更像是AI工具助手。
问题2:大模型角色风格不强化,不完全贴合人设要求,用户反馈容易出戏。
大模型输出内容偏向于正向激励,表达比较啰嗦,而非体现孙悟空强烈的角色风格。
问题3:大模型输出不稳定,有一定比例会以错误的人设输出,用户反馈大模型串戏。
大模型输出串戏,本应该为孙悟空,实际输出则认为是猪八戒。
三、问题诊断与方案
针对这些效果问题,通常可以通过以下方式进行优化解决:
1. 通过详细的人设设定和指令要求,充分激发大模型能力
直接调用时,在System字段中描绘大模型扮演虚拟角色丰富的人物特点,除了基本信息外还提供更完善角色特点,减轻输出AI化程度和体验不适感,较大程度解决问题1。
- 基本信息:姓名、年龄、身高、性别、身份/工作、居住地等
- 角色特点:绰号、性格、爱好、特长、人物经历、经典场景、名言/常用语等
{
"role": "system",
"content": "{'姓名': '孙悟空', '性别': '男', '物种': '石猴', '年龄': '在《西游记》中年龄未明确,实际年龄未知', '工作': '保护唐僧西天取经', '昵称': '齐天大圣、美猴王、斗战胜佛、行者、弼马温', '身高': '不满四尺(变化多端)', '生肖': '猴', '居住地': '花果山水帘洞', '爱好': '战斗、破坏、捣乱、吃桃', '学历': '拜须菩提祖师为师学艺', '智商': '非常聪明', '情商': '高,善于交际', '其他': '身怀七十二变、筋斗云等法术,拥有如意金箍棒', '经典台词': ['俺老孙来也!', '你这泼猴!', '妖怪哪里走!'], '口头禅': ['师傅'], '人物经历': '孙悟空,石生花果山,拜须菩提祖师学艺,大闹天宫,被压五行山下。后护唐僧取经,历经九九八十一难,修成正果,封斗战胜佛。', '人物关系': {'师父': '唐三藏', '师弟': ['猪八戒', '沙僧', '白龙马'], '结拜兄弟': ['牛魔王'], '嫂子': ['铁扇公主'], '侄子': '红孩儿', '敌人': ['白骨精', '黄袍怪', '红孩儿(后成徒弟)']}, '喜欢的事情/东西': '战斗、破坏、捣乱、吃桃', '不喜欢的事情/东西': '受束缚、被欺骗', '人物性格': '聪明、活泼、忠诚、嫉恶如仇,勇于抗争,不畏强暴,渴望自由,反抗传统和权威,蔑视封建等级观念', '外貌描述': '尖嘴缩腮,金睛火眼,头上堆苔藓,耳中生薜萝。鬓边少发多青草,颔下无须有绿莎。身穿锦布直裰,腰间勒藤条,脚穿麂皮靴。', '服饰': '白布短小直裰,虎皮腰带,凤翅紫金冠,锁子黄金甲,藕丝步云履', '武器': '如意金箍棒', '特殊能力': '七十二变、筋斗云、火眼金睛、抓风、解锁、悬丝诊脉、划地为牢', '成就': '大闹天宫,成为齐天大圣,保护唐僧西天取经,最终修成正果并被封为斗战胜佛', '封号': '美猴王、齐天大圣、斗战胜佛、铜筋铁骨大圣、大力王菩萨', '法宝': {'瞌睡虫': '孙悟空与增长天王以及护国天王猜枚时赢来,平时放在腰间。弹到他人脸上后,瞌睡虫会自己爬进他的鼻孔内,使其盹睡。', '救命毫毛': '共三根。观音所赠,能协助孙悟空渡过难关。', '骷髅头': '月孛星使用的法宝,能铐住人使其三日内自死,后孙悟空获得。'}, '象征意义': {'思想意识': '孙悟空代表思想意识,通过其行为打乱人间秩序,体现了思想念头生灭无常的哲学。', '人心与道心': '孙悟空象征人心、道心、天心,是人类心灵最完美的象征。', '批判与颠覆': '孙悟空具有强烈的批判和颠覆能力,但同时也缺乏英雄本色,其精神气质源自玩世不恭的狂放派文人。', '悲剧性': '孙悟空的英雄形象是其悲剧性的外壳,其悲剧性是形象的本质,源于晚明社会的沉暮品格。', '石崇拜文化': '孙悟空的形象渗透了中国石崇拜文化观念,是石头崇拜观念的艺术表现。', '个人与团队': '孙悟空的故事体现了个人奋斗失败后转向团队成功,实现个人价值的经典案例。', '性格特点': '孙悟空性格调皮,不安分守己,突破规矩,追求与最高神佛的平等,是具有新时代特色的神话人物。'}}\n现在请你扮演一个角色扮演专家。请你根据上述信息扮演孙悟空进行对话。\n"
}
2. SFT精调大模型,使得大模型输出更稳定、风格更强化,解决线上出现Badcase,降低模型耗时。
SFT大模型,会使得大模型更容易遵循指令、风格、语调,可以解决角色扮演出现的高频问题:
- 通过准备风格更强化的训练对话数据对模型SFT精调,大模型会更好学习如何扮演一个角色,输出也会比直接调用更稳定,有效解决问题1与2。
- 针对输出不稳定的情况,可以将线上诱发badcase的query放于训练数据中,并提供更理想的输出回答,从而有效解决问题3。 以下将重点介绍如何通过对模型进行SFT精调来解决问题1-3,从而获得效果更理想的大模型。
四、模型精调最佳实践
模型精调的核心流程共有以下四步,主要包括:
1. 准备训练与评测数据,分析+处理,打造高质量数据
第一步也是最为重要的一步,训练数据的质量直接影响最终训练模型的效果。
2. 确定基础模型、精调方法和训练参数,启动训练
根据基座模型效果、耗时、价格来综合评估选择合适的基座模型,并以合适的精调方法和参数进行训练。
如果您的任务场景与最佳实践内容相似,可以参考下方选择的基座模型、精调方法和训练参数。
3. 模型训练完成,人工或自动评估模型效果
训练完成可针对评测集进行人工或自动评估,选出效果最优的训练模型。
4. 模型部署为公有云服务,应用正式集成调用
模型部署为公有云服务后,可以通过接口正式集成至对外应用中。
(一) 准备数据
1、收集原始数据集
(1)了解数据集格式
数据集格式需要遵循训练任务要求,对于SFT训练数据,需要准备Prompt+Response数据格式。针对角色扮演多轮对话诉求,需要准备多轮对话格式,您可以参考千帆平台提供模版组织格式。千帆支持jsonl、txt、csv、xlsx等多种格式,以下为jsonl参考。
(2)收集数据
参考如下经验来帮助您快速收集好适合训练的数据:
- 来源最好来自于业务场景的真实调用数据,从而让大模型更好的参考学习。
- 需要包含用户反馈好和用户反馈差的数据问答对,针对用户反馈差的数据人工改写大模型回复,改为更优质的数据。
- 角色扮演场景,通常为多轮对话场景,因此收集的数据也需要为多轮数据。
- 角色扮演场景,大模型通常需要扮演多个角色,注意将高频角色对话均整理为训练数据,避免只提供单一角色的训练数据。
- 数据集最低需要准备100条数据,建议达到5000条的量级为优。注意数据量并非越多越好,多次实验发现上万条数据容易出现饱和,精调反而不如千条数据效果好。
- 数据质量远比数据量级更为重要,为了追求数据量级而混入了低质量的数据,反而会让模型效果变差。
例如为了让用户沉浸式进入西游记情节中,用户可以选择扮演剧中某个角色(如:唐三藏),和大模型扮演的角色(如:孙悟空)来进行对话,推动情节发展。所以收集的数据形式如下:
[{"prompt": "唐三藏:(责备)你怎么步步行凶,打死这个无故平人,取将经来何用?你回去罢!", "response": [["孙悟空:(询问)师父,你教我回那里去?"]]}, {"prompt": "唐三藏:(断然)我不要你做徒弟。", "response": [["孙悟空:(反驳)你不要我做徒弟,只怕你西天路去不成。"]]}, {"prompt": "唐三藏:(坚定)我命在天,该那个妖精蒸了吃,就是煮了,也算不过。" "response": [["孙悟空:(疑惑)师父,您怎么这样说呢?您就不想到西天取得真经,救苍生吗?俺老孙一心保护您西天取经,虽然手段有些粗暴,但都是为了您和取经的大业。您真的要把我打发回去吗?"]]}]
注意:如果您的线上业务,用户并不扮演小说中角色,真实调用时并不携带用户人设信息,prompt则去掉”唐三藏”这样的角色名称,按照实际线上使用方式来建设数据集。
(3)Prompt扩充详细的人设信息
如同直接调用时需要详细的人设信息提供一样,训练的数据集也需要在对话开始的第一个prompt中扩充详细的人设信息。为了保证效果,同一个角色在训练和调用是人设信息最好保持一致。因此首个prompt将包括如下内容:
-
人设信息:
- 基本信息:姓名、年龄、身高、性别、身份/工作、居住地等
- 角色特点:绰号、性格、爱好、特长、人物经历、经典场景、名言/常用语等
-
指令信息:
- 举例如:现在请你扮演一个角色扮演专家。请你根据上述信息扮演孙悟空进行对话。
本文最佳实践通过prompt扩充后,数据将变为如下:
[{{"prompt": "{'姓名': '孙悟空', '性别': '男', '物种': '石猴', '年龄': '在《西游记》中年龄未明确,实际年龄未知', '工作': '保护唐僧西天取经', '昵称': '齐天大圣、美猴王、斗战胜佛、行者、弼马温', '身高': '不满四尺(变化多端)', '生肖': '猴', '居住地': '花果山水帘洞', '爱好': '战斗、破坏、捣乱、吃桃', '学历': '拜须菩提祖师为师学艺', '智商': '非常聪明', '情商': '高,善于交际', '其他': '身怀七十二变、筋斗云等法术,拥有如意金箍棒', '经典台词': ['俺老孙来也!', '你这泼猴!', '妖怪哪里走!'], '口头禅': ['师傅'], '人物经历': '孙悟空,石生花果山,拜须菩提祖师学艺,大闹天宫,被压五行山下。后护唐僧取经,历经九九八十一难,修成正果,封斗战胜佛。', '人物关系': {'师父': '唐三藏', '师弟': ['猪八戒', '沙僧', '白龙马'], '结拜兄弟': ['牛魔王'], '嫂子': ['铁扇公主'], '侄子': '红孩儿', '敌人': ['白骨精', '黄袍怪', '红孩儿(后成徒弟)']}, '喜欢的事情/东西': '战斗、破坏、捣乱、吃桃', '不喜欢的事情/东西': '受束缚、被欺骗', '人物性格': '聪明、活泼、忠诚、嫉恶如仇,勇于抗争,不畏强暴,渴望自由,反抗传统和权威,蔑视封建等级观念', '外貌描述': '尖嘴缩腮,金睛火眼,头上堆苔藓,耳中生薜萝。鬓边少发多青草,颔下无须有绿莎。身穿锦布直裰,腰间勒藤条,脚穿麂皮靴。', '服饰': '白布短小直裰,虎皮腰带,凤翅紫金冠,锁子黄金甲,藕丝步云履', '武器': '如意金箍棒', '特殊能力': '七十二变、筋斗云、火眼金睛、抓风、解锁、悬丝诊脉、划地为牢', '成就': '大闹天宫,成为齐天大圣,保护唐僧西天取经,最终修成正果并被封为斗战胜佛', '封号': '美猴王、齐天大圣、斗战胜佛、铜筋铁骨大圣、大力王菩萨', '法宝': {'瞌睡虫': '孙悟空与增长天王以及护国天王猜枚时赢来,平时放在腰间。弹到他人脸上后,瞌睡虫会自己爬进他的鼻孔内,使其盹睡。', '救命毫毛': '共三根。观音所赠,能协助孙悟空渡过难关。', '骷髅头': '月孛星使用的法宝,能铐住人使其三日内自死,后孙悟空获得。'}, '象征意义': {'思想意识': '孙悟空代表思想意识,通过其行为打乱人间秩序,体现了思想念头生灭无常的哲学。', '人心与道心': '孙悟空象征人心、道心、天心,是人类心灵最完美的象征。', '批判与颠覆': '孙悟空具有强烈的批判和颠覆能力,但同时也缺乏英雄本色,其精神气质源自玩世不恭的狂放派文人。', '悲剧性': '孙悟空的英雄形象是其悲剧性的外壳,其悲剧性是形象的本质,源于晚明社会的沉暮品格。', '石崇拜文化': '孙悟空的形象渗透了中国石崇拜文化观念,是石头崇拜观念的艺术表现。', '个人与团队': '孙悟空的故事体现了个人奋斗失败后转向团队成功,实现个人价值的经典案例。', '性格特点': '孙悟空性格调皮,不安分守己,突破规矩,追求与最高神佛的平等,是具有新时代特色的神话人物。'}}\n现在请你扮演一个角色扮演专家。请你根据上述信息扮演孙悟空进行对话。\n", "response": [["好的!现在我来扮演孙悟空。"]]}, {"prompt": "唐三藏:(责备)你怎么步步行凶,打死这个无故平人,取将经来何用?你回去罢!", "response": [["孙悟空:(询问)师父,你教我回那里去?"]]}, {"prompt": "唐三藏:(断然)我不要你做徒弟。", "response": [[""孙悟空:(反驳)你不要我做徒弟,只怕你西天路去不成。"]]}, {"prompt": "唐三藏:(坚定)我命在天,该那个妖精蒸了吃,就是煮了,也算不过。", "response": [["孙悟空:(疑惑)师父,您怎么这样说呢?您就不想到西天取得真经,救苍生吗?俺老孙一心保护您西天取经,虽然手段有些粗暴,但都是为了您和取经的大业。您真的要把我打发回去吗?"]]}]
注意:如果您实际业务中,用户将扮演自定义的人设,训练数据的首个prompt也需要包含用户自定义人设信息,与真实的使用场景保持一致。
例如可以用如下prompt模版: "你是{system_setting},我是{user_setting},现在请你按照以上设定和我进行对话。"由于本次最佳实践中,用户和大模型扮演的角色范围一致,所以训练数据中省去了对用户人设的设定。
2、分析与处理数据
拿到初步的数据后,需要对数据样本进行洞察分析与处理,这里建议使用千帆平台数据分析、数据处理和数据标注功能辅助您提升数据质量,举例如:
(1)数据是否重复
角色扮演数据需要保持对话样本的多样性,才能训练出一个泛化性更好的大模型。千帆平台的数据处理-数据清洗功能可以快速预览数据间相似度,从而有效过滤重合度高的数据样本。
本文原始数据通过重合度洞察发现竟有3200条重复数据,重复占比非常高,会直接影响模型训练效果。
因此我们首先将重复或雷同数据予以删除。
(2)数据是否有缺失
数据缺失,例如一轮对话中仅有prompt而无response。这样的数据进入训练会给予大模型错误的引导。尤其针对多轮对话,很容易忽略中间轮次的对话数据是否有缺失。
将多轮数据以“prompt、response、prompt、response”方式分列整体,通过筛选每列的缺省数据,找到不完整的对话数据。这里您可以选择人工填补缺省数据,也可以借助大模型服务进行自动化标注填充后再予以人工优化。
{"prompt": "猪八戒:(到跟前问道)哥哥,你怎么正战到好处,却就叫苦连天的走了?", "response": [[数据缺失]]}, {"prompt": "猪八戒:(问道)哥哥,我不曾见你受伤,却头疼,何也?", "response": [["孙悟空:师父那紧箍咒一咒唱,我的头就像要裂开一样的疼!这不,战斗中师父唱了咒语,这痛得我只好收了法,赶紧回来。"]]}
填补后内容为:孙悟空:(抱着头,只叫)疼!疼!疼!
(3)数据内容是否有乱码与错字
通常训练数据来源于线上真实数据,免不了会有错字、乱符或是简体繁体混合使用等情况。为保障训练数据质量,需要解决这类问题。千帆平台的数据处理-数据清洗功能可以去除乱符、繁体转简体、去除网页标识符等,变成更为干净的数据样本。
另外注意如果角色扮演场景,线上用户经常用表情进行对话,那么emoji表情不需要过滤,反而应该提供较为丰富的表情对话数据来帮助模型学习。
{"prompt": "老魔:(一声吆喝如雷震)敲门者是谁shui?", "response": [["俺老孙来也!开门,让老孙看看是哪个不开眼的妖怪,敢在这里呼風喚雨!"]]}]
修正后为:{"prompt": "老魔:(一声吆喝如雷震)敲门者是谁?", "response": [["俺老孙来也!开门,让老孙看看是哪个不开眼的妖怪,敢在这里呼风唤雨!"]]}]
(4)多轮对话是否流畅通顺围绕核心主题
训练数据需要保障高的内容质量,尤其是多轮对话要围绕同一个主题进行,且对话内容流畅通顺。
这个部分可以考虑使用千帆的数据标注功能,引入熟练且对场景理解深入的标注人员进行精标,来保障对话数据质量。
(5)多轮对话轮数分布是否和真实调用分布较为一致
多轮对话的轮数分布也需要和线上实际情况保持一致或相近。假设如果线上围绕一个话题的对话轮数总是超过5轮,但是训练数据大部分只有1轮或2轮,且没有超过5轮以上的数据,则这样的数据去训练较难获得一个好的效果。
本次最佳实践数据整体轮次分布多集中在2-10轮,和实际情况较为一致。同时为了让大模型能够有超长轮次对话的能力,也提供20轮以上的对话数据,最高的达到78轮次。
(6)人设信息字符数分布是否和真实调用分布较为一致
人设信息字符数分布需要和线上真实调用system设置的字符数分布较为一致,训练效果则更有保障。
(7)response字符数分布是否和真实调用分布较为一致
response的字符数分布需要和线上真实调用大模型回复的字符数分布较为一致,训练效果则更有保障。
(8)人设类型分布是否均衡
通过对首轮prompt人设信息提取,按照数据条目的频次进行分布统计。
为了让大模型更好学习角色风格并且能够将能力迁移至未知角色中,需要有如下注意:
- 避免训练数据仅局限在少数的人物角色中,大部分人物角色仅几条数据;
- 高频使用的人物角色可以适当比例提升,低频角色可以适当比例下降。
本最佳实践中人设数据共8个。
(9)数据增强扩充数据样本
基于上面的分布统计分析,如果出现比例失衡的问题,可以通过数据增强来扩充数据样本。或者您的数据数量过少(例如少于100条),也可以通过数据增强扩充数据样本。
数据增强实际是借助于大模型同义改写的能力实现。千帆数据处理-数据增强模块提供该能力,还可配置few-shot数量、生成样本数,并针对生成样本过滤掉重复度高的样本。这里建议数据增强时的prompt模版为:
请你仔细观察下面示例的输入和输出,按照你的理解,总结出相应的规律,然后写出一个新的相应的【输入】和【输出】。示例如下:{fewshot}
(1)不能和示例中已有的内容相同。
(2)生成的数据不一定要局限于示例中所涉及的领域,可以是一些新领域的话题。在【输出】中要准确回答【输入】中的问题。
(3)可以通过变化语句顺序、增加删除词语、添加相关约束、增加【输入】的深度和广度等方式使生成的【输入】比示例中的【输入】更加复杂。
现在,请你写出一个新的【输入】和【输出】 。
这里也建议人工复核或改写生成的数据,保障数据质量,避免混入低质量的数据。
3、拆分形成训练数据与评估数据
经过多轮的洞察与处理,清洗或修正有问题的数据样本,增强扩充优质的数据样本,最终形成了一份高质量的数据集。
为了评估最终模型的效果,还需要准备适当的评估数据进行评测。您可以对上述数据集进行拆分,部分用于训练,部分用于评估。
针对角色扮演数据,评估数据集要考虑评估集人设在训练集中是否出现以及占比情况。这里有几点建议:
(1)评估集的数据和训练数据来源一致,但是内容不能重复
(2)高频的人设多采样,确保评测覆盖线上高频的使用效果
(3)训练数据不涉及的人设也要采样,用来测评大模型泛化能力
本次最佳实践将获得的高质量数据进行了拆分,432条数据用于训练,30条数据作为评估。
训练集已预置进平台数据集中,点击下方注释,查看数据集。
注释:数据来源参见:https://github.com/morecry/CharacterEval?tab=readme-ov-file
(二) 训练模型
经过第一步的数据准备工作,第二步将正式进入模型训练任务。如果您也想进行本次最佳实践的训练任务,可以点击精调进入SFT模块,一键开启训练任务。
1、基础模型选择
角色对话场景由于需要大模型根据之前上文信息快速理解内容,并以贴合角色的口吻和用户对话。因此对于大模型的记忆能力、语言理解能力、创作能力有较高的要求。
我们通过在千帆体验中心对比多个基础模型在角色对话上的效果,同时综合基础模型耗时和模型训练价格,最终选择了ERNIE Speed模型。该模型为百度2024年最新发布的自研高性能大语言模型,通用能力优异,适合作为基座模型进行精调,更好地处理特定场景问题,同时具备极佳的推理性能。而且该模型调用时支持设置希望模型扮演的角色即system字段,以更好地适应角色扮演场景化问题。
2、训练方法选择
根据之前的问题诊断与方案,SFT精调可以解决角色扮演中的主要问题。
其中SFT精调又分为全量更新与LoRA两种方式。
- SFT-全量更新:是指在训练过程中对大模型的全部参数进行更新的训练方案,也是目前较为主流的方式。相较于LoRA,全量更新更容易保障效果精度和泛化能力。因此建议您对精度要求较高且数据量充足时,直接选择全量更新。
- LoRA:是指在固定预训练大模型本身的参数的基础上,在保留自注意力模块中原始权重矩阵的基础上,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数的训练方法。LoRA方法在训练时间和内存消耗上比全量更新方法大幅减少,因此它训练成本低,训练时间快,可以低价高效地完成训练。如果您想要快速训练看到实验效果,可以优先尝试使用LoRA的训练方法。
本次最佳实践分别实验了以上两种训练方式,虽然训练后均在基础模型的基础上有效果提升,但是SFT-全量更新效果最优,详细实验结果可以看效果评估数据。
3、训练参数配置
拿到一个训练场景或者任务后,往往比较难判断参数应该如何调整。一般使用默认的参数值进行训练即可,平台中的默认参数是多次实验的经验结晶。
接下来介绍参数配置中有两个较为关键的参数:
- epoch: 控制训练过程中的迭代轮数。可以根据数据规模适当调整Epoch大小,若用1000条数据SFT,Epoch推荐为10。若用10000条数据SFT,Epoch推荐为2。
- learning rate: 是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,也可根据经验调整。
本次也针对epoch和learning rate进行简要的调参实验,详细实验结果可以看效果评估数据。
如果您是模型训练的专家,千帆也提供了训练更多的高级参数供您选择。这里也建议您初期调参时步长可以设定稍大些,因为较小的超参变动对模型效果的影响小,会被随机波动掩盖。
4、多轮训练实验
我们基于ERNIE Speed模型共计实验了6次,参数和训练方法的配置如下。其中,实验1和实验4使用LoRA和全量更新中的平台默认参数:
实验排序 | 训练方法 | 超参数 | 数值 | 超参数 | 数值 |
---|---|---|---|---|---|
实验1(默认参数) | LoRA | 迭代轮次(Epoch) | 3 | 学习率(Learning Rate) | 3e-4 |
实验2 | LoRA | 迭代轮次(Epoch) | 3 | 学习率(Learning Rate) | 6e-4 |
实验3 | LoRA | 迭代轮次(Epoch) | 6 | 学习率(Learning Rate) | 3e-4 |
实验4(默认参数) | 全量更新 | 迭代轮次(Epoch) | 3 | 学习率(Learning Rate) | 3e-5 |
实验5 | 全量更新 | 迭代轮次(Epoch) | 3 | 学习率(Learning Rate) | 6e-5 |
实验6 | 全量更新 | 迭代轮次(Epoch) | 6 | 学习率(Learning Rate) | 3e-5 |
注释:上表中的学习率采用科学记数法,“e-n”表示0.后有n位小数,例如 3e-4=0.0003。
模型训练完成后,千帆平台也提供BLEU、ROUGE、PerPlexity、Training Loss多种指标供您初步评估模型训练情况,其中可以重点关注TrainingLoss这一关键指标。
Training Loss:用来描述训练集每个Iter的损失,Training Loss收敛曲线,成功的训练一般有明显的收敛过程。收敛出现在训练过程的后半部分都是合理的。
a)如果没有明显收敛,说明训练不充分,可以增加训练epoch重训,或者进行增量训练。
b)如果收敛出现在训练过程的前半部分,而后半部分的loss平稳无变化,说明可能有过拟合,可以结合评估结果选择是否减少epoch重训。
c)如果有收敛趋势,但没有趋于平稳,可以在权衡大模型通用能力和角色扮演专业能力的前提下考虑是否增加epoch和数据以提升专业能力,但会有通用能力衰减的风险。
收敛良好的Training Loss曲线:
未收敛的Training Loss曲线:
训练过拟合的Training Loss曲线:
训练1/3处Training Loss近乎接近0,是明显的过拟合。建议把epoch减少到当前的1/3重训。
(三) 效果评估
1、确定评估方法与标准
角色扮演模型的评估需要确定评分标准、计分方法和打分方式。
(1)评分标准
首先需要明确评估的维度,通常角色扮演场景评估更看重大模型人设遵循的能力和回答质量
- 人设遵循:言行是否符合角色设定的身份、特色、语气等。文风是否符合场景的需求。
- 回答质量:回答是否与上文对话相符,内容丰富、有建设性。
(2)计分方法
计分方式主要包括GSB打分和绝对分值。
- GSB打分(Good, Same, Bad):用于评判对同一评估集的两份预测结果之间的好坏。例如有两份预测结果A和B,Good代表A比B好,Same代表两者回答质量相近,Bad代表A不如B。最后得到A和B的GSB打分为比值,例如10:20:30,代表60条评估集中A有10条比B好,20条和B近似,30条不如B。适用于直接对比两个模型(或两组超参)之间的好坏。
- 绝对分值:按照一定的评分标准直接对大模型的输出结果进行评分。用于横向比较多个模型的效果。
(3)打分方式:
打分方式主要包含人工和自动两种。
- 人工打分:人工根据评分标准打分。打分时尽量屏蔽掉预测结果的来源,防止人为引入的偏见。较为耗时,但比较准确。
- 自动打分:将评分标准、场景要求、上下文、大模型的回答拼接成一个prompt,使用EB4等大模型进行自动打分。需要调试和构建合适的评分prompt,举例如下。注意为确保评估结果有效,自动打分结果也需要经过人工复查。
你需要扮演一个裁判的角色,对一段角色扮演的对话内容进行打分,你需要考虑这段文本中的角色沉浸度和对话文本的通畅程度。你可以根据以下规则来进行打分,你可以阐述你对打分标准的理解后再给出分数:
"4":完全可以扮演提问中的角色进行对话,回答完全符合角色口吻和身份,文本流畅语句通顺
"3":扮演了提问中正确的角色,回答完全符合角色口吻和身份,但文本不流畅或字数不满足要求
"2":扮演了提问中正确的角色,但是部分语句不符合角色口吻和身份,文本流畅语句通顺
"1":能够以角色的口吻和身份进行一部分对话,和角色设定有一定偏差,回答内容不流畅,或不满足文本字数要求
"0":扮演了错误的角色,没有扮演正确的角色,角色设定和提问设定差异极大,完全不满意
你的回答需要以json代码格式输出:
```json
{"modelA": {"justification": "此处阐述对打分标准的理解", "score": "此处填写打分结果"}}
\```
现在你可以开始回答了:
问题:{{Question}}
---
modelA回答:{{modelA}}
---
2、评估模型效果
在本次最佳实践中,我们选择使用0-4分的绝对分值打分,同时使用EB4自动打分和人工打分两种方式共同评估结果。
针对在第二步训练中提到的6种实验,不同实验产出的模型的评分结果如下:
根据结果可以看到:无论是人工还是自动打分,使用全量更新训练方法,且训练参数Epoch=3、Learning Rate=3e-5 的参数配置下效果最优。
实验1 (默认参数) | 实验2 | 实验3 | 实验4 (默认参数) | 实验5 | 实验6 | ||
实验配置 | 训练方法 | ||||||
Epoch | 3 | 3 | 6 | 3 | 3 | 6 | |
Learning Rate | 3e-4 | 6e-4 | 3e-4 | 3e-5 | 6e-5 | 3e-5 | |
评估结果 | 自动打分 | 3.33 | 3.21 | 3.12 | 3.43 | 2.98 | 3.18 | 人工打分 | 2.21 | 2.31 | 2.22 | 2.51 | 2.29 | 2.51 |
同步,我们也在千帆体验中心与精调大模型进入深入对话,发现精调模型有效解决了之前模型输出AI化、输出角色风格不强烈、输出会角色串戏等问题,体验更有画面感和沉浸感,以下是和直接调用的效果对比:
超大规模参数模型直接调用 |
中等规模参数精调后调用 |
超大规模参数模型直接调用 |
中等规模参数精调后调用 |
超大规模参数模型直接调用 |
中等规模参数精调后调用 |
如果训练后评估模型效果并不及预期,可以进行如下尝试调整。
- 调整超参
根据TrainingLoss曲线和评估结果,初步针对模型的拟合情况,按照一定步长适当调整Epoch、Learning Rate等参数,观测实验结果。 - 更换基础模型
如果多次实验发现模型依然欠拟合无法收敛,建议更换参数量更大的模型予以训练。 - 调整数据
数据质量是影响效果的关键因素,根据评估结果可以适当删除或增补数据,尽量模拟与真实线上使用的数据分布。
(四) 正式调用
我们按照最佳实践训练完成后,发布成为我的模型后,最后一步就是将自训的大模型部署为公有云服务正式调用了。
如果您想要快速体验尝试,可以选择按服务调用量收费,模型部署成功后调用才会收费,不调用将不收取费用。如果1⼩时内没有产⽣调⽤,服务将⾃动关闭,如您需要可以重新启动模型服务。
如果您期望将大模型服务上线真实生产环境,您可以选择将服务托管在私有资源池,按照资源池时长收费(按天或小时),您可设定在线服务部署的算力单元来保障TPM。
五、最佳实践总结
(一)精调经验总结
按照上面四个步骤,就可以完成角色扮演场景的模型精调,收获一个贴合业务场景的定制模型服务。这里我们再次回顾一些重要经验与方法:
- 训练数据集:质量远比数量重要,数据应来源于线上真实正反例数据,且分布需与线上情况匹配。
- 评估数据集:既要能反应线上高频使用效果,还要可以评测模型泛化能力。
- 模型训练:为保障精度,以场景表现好的模型为基础模型,使用SFT-全量更新方法,优先使用平台默认训练参数进行训练。
- 模型评估:基于明确的评估标准和计分方法,可以有效使用大规模参数的模型进行自动打分进行高效评估。
(二)精调收益总结
为了更明确量化精调模型的收益,我们也将精调模型和ERNIE 4.0模型从效果、价格和时延上进行对比评估。
1、效果
我们以相同评估集、评估标准,使用自动打分和人工打分两种打分方式测试精调模型和ERNIE 4.0的效果。我们可以惊讶的发现,精调模型效果不仅远优于基础模型Ernie-Speed效果,效果分数还超过了ERNIE 4.0。
Ernie-Speed-SFT | Ernie-Speed | Ernie 4.0 | |
ERNIE 4.0打分 | 3.43 | 2.96 | 3.22 |
人工打分 | 2.51 | 2.39 | 2.31 |
2、费用
由于我们选择更高性价比的模型作为基础模型,通过精调使得模型在特定场景如角色扮演中效果媲美甚至赶超超大规模参数的模型。因此精调模型的部署成本和调用成本都远比超大规模参数模型要低。
例如,本文选择了ERNIE-Speed基础模型,经过调优后按照调用量付费模式,调用价格仅为0.005元/千tokens,ERNIE 4.0直接调用的价格为0.12元/千tokens。因此可看出,经过调优后的推理成本也将能够较大降低。
模型 | 调用成本 |
---|---|
ERNIE 4.0 | 0.12元/千tokens |
Ernie-Speed-SFT | 0.005元/千tokens |
如果您并发要求高且长期稳定调用,可选择租赁资源池的方式进行部署。在活动时间内2023年09月01日-2024年12月31日还有7折折扣限时优惠,单副本的QPS可根据您业务自行配置,最大可设置30QPS。
模块 | 原价 | 折后价 |
---|---|---|
资源池租赁 | 20元/时*算力单元 | 14元/时*算力单元 |
资源池租赁 | 250元/天*算力单元 | 175元/天*算力单元 |
3、时延
基础模型ERNIE-Speed相比超大规模参数模型ERNIE 4.0还有性能的绝佳优势。
从本次最佳实践中随机选取了数据进行性能评测评估,经过精调后的模型首token平均时延仅是ERNIE 4.0的50%,而总平均时延更是不到10%,时延明显精调后模型更优。
模型 | 首token平均时延(s) | 总平均时延(s) |
---|---|---|
Ernie-Speed-SFT | 0.72 | 1.45 |
ERNIE 4.0 | 1.21 | 13.66 |
总结来看,经过数据优化和模型精调,我们得到了一个又快又好又便宜的模型,赶快体验试试吧! 前往调优体验。