场景方案·职业教育
本文档主要以飞行人员理论考试场景为例,支持客户基于文心大模型快速构建业务实践,同样方法也适用于其他职教类解析场景。
一、传统职教类解析现状
在没有应用大模型前,普遍的解析类应用使用场景一般的处理流程如下:
二、大模型业务需求
基于以上业务场景现状,客户普遍期望大模型来解决的问题有以下几类:
问题 | 需要及时更新题库题目,当前题目更新速率非常高,维护/采购成本较高。若不在题库范围内的题目,便无法即时给出解析 | 大多用户上传的题目都需要走离线标注,用户体验较差,容易错过用户的碎片化学习时间 | 行业专家/老师标注成本高,平均标注人工成本在1元/题左右 | 大量行业很难找到专家/老师,例如美容美发、安全生产、特种作业、技能鉴定等行业 |
---|---|---|---|---|
期望 | 通过大模型解析,不需要依赖题库覆盖度,不用购买/维护题库 | 针对用户上传的题目实时给出解析,降低用户等待时间,充分利用用户的碎片化时间高效学习 | 通过大模型降低行业专家/老师标注成本 | 覆盖长尾行业/场景,不再需要找对应专家或老师 |
定义好了大模型在判题场景中需要满足的需求后,下面我们到业务可行性评估阶段,判断大模型是否具备处理此场景任务的能力。
三、业务可行性评估
以下为基于本平台的职业教育场景方案(包含使用AppBuilder),同时也为本文档的目录大纲,请您仔细阅读。可参考本页右侧目录,跳转至您需要看的文档位置。
3.1 可行性评估方法
我们先用ERNIE-4.0作为baseline,进行业务可行性评估,您可以先到预置服务中开通付费。
ERNIE 4.0
百度自研的旗舰级超大规模大语言模型,相较ERNIE 3.5实现了模型能力全面升级,广泛适用于各领域复杂任务场景;支持自动对接百度搜索插件,保障问答信息时效。
3.2 职业教育解析场景可行性评估过程
3.2.1 评估数据集准备
建议整理1000道历年的飞行员理论考试题目,作为业务可行性评估阶段的测试集。因不同题目考查的知识点不一样,所以扩大了测试规模看整体效果。若是在选择题上做评估,题目建议同时覆盖单选题和多选题。
点击展开测试样本demo
#测试样本demo
对于任何破坏民用航空器、扰乱民用航空器内秩序、危害民用航空器所载人员或者财产安全以及其他危及飞行安全的行为,在保证安全的前提下,( )有权采取必要的适当措施。
A、安全员
B、乘务长
C、机长
D、管制员
{标准答案}: C
{解析}:《中华人民共和国航空法》第四十六条,飞行中,对于任何破坏民用航空器、扰乱民用航空器内秩序、危害民用航空器所载人员或者财产安全以及其他危及飞行安全的行为,在保证安全的前提下,机长有权采取必要的适当措施。
3.2.2 大模型能力现状评估
通过批量评估的方法,跑出这1000道测试集的结果,通过人工评估来粗略评估大模型的准确率能到多少。粗评过程可以不用将prompt写的太复杂。
这里建议先通过ERNIE 4.0做两类评估:
① 大模型直接做题:判断模型的直接表现。一般情况下我们认为,能做对的题,一般都能解析正确。
#直接做题
你是一名资深飞机技师,现在要完成飞机技师技术考试。我会给你[题目],请根据你的行业知识,给出正确答案。只输出答案,不要输出任何其他内容
{题目}:
在必须撤离遇险民用航空器的紧急情况下,下列表述不正确的是:
A、机长必须采取措施,首先组织旅客安全离开民用航空器
B、未经机长允许,机组人员不得擅自离开民用航空器
C、机长应当最后离开民用航空器
D、只要机长发布了撤离信号,采取相应措施,即可离开飞机
#大模型输出
D
② 大模型根据答案得出解析:判断大模型推理分析能力。
#根据答案得出解析
你是一名资深飞机技师,现在要完成飞机技师技术考试。我会给你[题目]和标准答案,请根据你的行业知识以及给你的正确答案,给出对应的做题推导过程
{题目}:
在必须撤离遇险民用航空器的紧急情况下,下列表述不正确的是:
A、机长必须采取措施,首先组织旅客安全离开民用航空器
B、未经机长允许,机组人员不得擅自离开民用航空器
C、机长应当最后离开民用航空器
D、只要机长发布了撤离信号,采取相应措施,即可离开飞机
标准答案:D
#大模型输出
这是一道关于民用航空器紧急撤离规定的选择题,我们需要根据行业知识和规定来判断哪个选项是不正确的。现在,我们逐一分析每个选项:
A选项:机长必须采取措施,首先组织旅客安全离开民用航空器。这是正确的,因为在紧急情况下,确保旅客的安全是首要任务。机长有责任组织旅客有序、安全地撤离航空器。
B选项:未经机长允许,机组人员不得擅自离开民用航空器。这也是正确的。在紧急撤离过程中,机组人员需要遵循机长的指挥和安排。擅自离开可能导致撤离过程的混乱和不安全。
C选项:机长应当最后离开民用航空器。这同样是正确的。机长作为责任人,需要确保所有旅客和机组人员都已安全撤离后,才能最后离开航空器。这是机长职责的一部分,以确保撤离的完整性和安全性。
D选项:只要机长发布了撤离信号,采取相应措施,即可离开飞机。这个选项是不正确的。虽然机长发布撤离信号并采取措施是必要的,但仅仅做到这些并不意味着机长可以立即离开飞机。机长还需要确保所有旅客和机组人员都已安全撤离,并承担最后的检查责任。
综上所述,根据民用航空器的紧急撤离规定和行业知识,我们可以确定D选项是不正确的。在紧急撤离过程中,机长的责任不仅限于发布撤离信号和采取措施,还包括确保所有人员安全撤离并最后离开航空器。
在解析任务中,建议请相关行业专家/老师来参与评估。
这里我们分别统计1000道题目测试结果:
ERNIE 4.0做题准确率统计 | 总数 | 正确 | 错误 | 正确率 | ERNIE 4.0解析准确率统计 | 总数 | 正确 | 错误 | 正确率 |
---|---|---|---|---|---|---|---|---|---|
全部题型 | 1000 | 515 | 475 | 51.5% | 全部题型 | 1000 | 546 | 475 | 54.6% |
单选题 | 500 | 292 | 198 | 58.4% | 单选题 | 500 | 303 | 198 | 60.6% |
多选题 | 500 | 223 | 277 | 44.6% | 多选题 | 500 | 243 | 277 | 48.6% |
这里可以看到,大模型做题中,多选题准确率 < 单选题准确率,符合通常认知,因为多选题难度普遍比单选题高。同时解析的准确率会比直接做题的准确率高,这里面是因为给到了大模型更多信息(答案)后,大模型体现出了更好的表现
我们先把51.5%的做题准确率和54.6%的解析准确率作为优化前的baseline,后续调优手段也会和这个数值进行对比。
接下来,我们需要针对性挑选一些题目(可以集中在错题上),需要重点关注大模型的推理能力没有被激发出来,以及大模型本身是否具备该行业知识。
如以下题目:
#背景知识判断
你是一名资深飞机技师,现在要完成飞机技师技术考试。我会给你{题目}和{标准答案},请根据你的行业知识以及给你的正确答案,给出对应的做题推导过程
同时,需要输出题目考察的航空法规明细,如《中国民用航空局令》XX条内容
{题目}:
飞行中,遇到特殊情况时,为保证民用航空器及其所载人员的安全:
A、机组成员有权对民用航空器作出处置
B、飞行机组成员有权对民用航空器作出处置
C、乘务员有权对民用航空器作出处置
D、机长有权对民用航空器作出处置
{标准答案}:D
#背景知识判断
首先,我们来分析题目中给出的各选项关于积水跑道定义的描述,并结合航空行业知识和相关法规进行推导。
A选项描述:“道面积有一薄层水而反光时。当水层深度不超过3mm时,无大的滑水危险”。这个描述中,虽然提到了水层深度和滑水危险的关系,但并未准确反映积水跑道的定义,且“无大的滑水危险”并不等同于安全的跑道状态。因此,A选项不正确。
B选项描述:“大量降水或跑道排水不畅,积水超过3mm”。这个描述直接涉及了积水跑道的核心特征,即大量降水或跑道排水不畅导致的积水,并明确指出了积水的深度标准(超过3mm)。这与航空行业对积水跑道的普遍认知和相关安全规定相符。因此,B选项是正确的。
C选项描述:“当表面不干燥,但表面的水不会使它反光时”。这个描述过于模糊,没有具体说明积水的程度和对跑道使用的影响,因此不能作为积水跑道的准确定义。所以,C选项不正确。
D选项描述:“道面积有一薄层水而反光时。当水层深度超过3mm时,无大的滑水危险”。这个描述与A选项类似,但更强调了水层深度超过3mm时的情况。然而,它同样没有准确反映积水跑道的定义,且“无大的滑水危险”的表述可能误导对跑道安全性的判断。因此,D选项不正确。
综上所述,根据航空行业知识和相关安全规定,B选项“大量降水或跑道排水不畅,积水超过3mm”是关于积水跑道定义的正确答案。
此外,题目考察的航空法规明细可能涉及《民用机场运行安全管理规定》中关于跑道表面状况评估和管理的相关内容。具体条款可能因国家和地区而异,但通常都会强调在跑道出现积水等不安全情况时,应采取相应措施确保飞行安全。在本题中,对积水跑道的正确定义是确保飞行安全的重要前提
通过以下两种方式进一步判断:
对问题进行追问 | 对知识进行续写 |
---|---|
主要判断大模型是否能理解问题及关联知识点;在多次追问下,如果大模型能有效的针对问题进行正确回答,我们认为大模型在对应任务的语义理解和知识关联能力具备能力 | 主要判断大模型的训练语料中是否包含了对应的知识;一般来说能完整&准确的续写,我们认为基础模型里已经把对应知识训练进去了 |
#追问判断
《中华人民共和国民用航空法》中关于机长在紧急情况下对民用航空器作出处置的法定权力和相关规定在第几条?具体内容是什么?
在《中华人民共和国民用航空法》中,关于机长在紧急情况下对民用航空器作出处置的法定权力和相关规定主要体现在以下条款:
第四十四条 机长发现机组人员不适宜执行飞行任务或者航空器存在安全隐患而不适宜继续航行的,有权提出调整机组或者换航空器,并将有关情况报告有关部门。在此种情况下,机长有权采取必要的措施,首先确保航空器上人员的安全。
第四十六条 飞行中,对于任何破坏民用航空器、扰乱民用航空器内秩序、危害民用航空器所载人员或者财产安全以及其他危及飞行安全的行为,在保证安全的前提下,机长有权采取必要的适当措施。机长在民用航空器遇险时,有权采取一切必要措施,并指挥机组人员和航空器上其他人员采取抢救措施。在必须撤离遇险民用航空器的紧急情况下,机长必须采取措施,首先组织旅客安全离开民用航空器;未经机长允许,机组人员不得擅自离开民用航空器;机长应当最后离开民用航空器。
虽然第四十四条主要描述了机长在发现机组人员不适宜执行飞行任务或航空器存在安全隐患时的权力,但第四十六条更直接地赋予了机长在紧急情况下的处置权。根据第四十六条,机长不仅有权对危及飞行安全的行为采取措施,而且在遇险时有权指挥撤离,并确保旅客和机组的安全。
综上所述,《中华人民共和国民用航空法》中第四十六条最直接地规定了机长在紧急情况下对民用航空器作出处置的法定权力。这一条款确保了机长能够在紧急情况下迅速、有效地作出决策,以最大程度地保护人员安全和航空器的完整。
这里需要对大模型的输出做仔细核对,包括引用的条例/标准/法规是否正确,条例编号是否正确,条例内容是否正确。需要注意的是,大模型可能会对内容做一定的改写,但只要核心内容没有偏差,我们都认为大模型具备该条例知识。
如在《中华人民共和国民用航空法》中,我们对第四十六条内容进行分析:
“第四十六条,飞行中,对于任何破坏民用航空器、扰乱民用航空器内秩序、危害民用航空器所载人员或者财产安全以及其他危及飞行安全的行为,在保证安全的前提下,机长有权采取必要的适当措施。机长在民用航空器遇险时,有权采取一切必要措施,并指挥机组人员和航空器上其他人员采取抢救措施。在必须撤离遇险民用航空器的紧急情况下,机长必须采取措施,首先组织旅客安全离开民用航空器;未经机长允许,机组人员不得擅自离开民用航空器;机长应当最后离开民用航空器”
相关材料:《中华人民共和国民用航空法》
结果一致,说明大模型是掌握了本题对应的法规信息的。
点击展开对知识进行续写示例
《中华人民共和国民用航空法》,第四十六条 飞行中,对于任何破坏民用航空器、扰乱民用航空器内秩序……
#大模型返回
第四十六条规定如下:
飞行中,对于任何破坏民用航空器、扰乱民用航空器内秩序、危害民用航空器所载人员或者财产安全以及其他危及飞行安全的行为,在保证安全的前提下,机长有权采取必要的适当措施。飞行中,遇到特殊情况时,为保证民用航空器及其所载人员的安全,机长有权对民用航空器作出处置。
如需更多信息,可直接查阅《中华人民共和国民用航空法》原文或咨询专业法律人士。同时,也提醒大家在乘坐民用航空器时需严格遵守相关法律法规,确保航空安全
同样,根据具体法规进行比对,发现内容没有问题,即可判断大模型具备该行业法规。若有出入,则判断大模型不具备该行业知识,如:
《民用航空产品和零部件合格审定规定》中,民航地区管理局负责对所辖区域内的行政许可及其活动实施监督管理。受民航局委托实施哪些行政许可证件的审批工作?
#大模型返回
根据《民用航空产品和零部件合格审定规定》,民航地区管理局在所辖区域内负责监督管理相关行政许可及其活动。在受民航局委托的情况下,民航地区管理局可以实施以下行政许可证件的审批工作:
生产许可:对民用航空产品及其零部件的生产单位进行审查,确保其具备符合规定的生产条件和质量保证体系,并颁发生产许可证。
适航批准:对民用航空产品及其零部件进行适航审查,验证其是否满足适航标准和要求,包括型号合格证、补充型号合格证、改装设计批准书等证件的颁发。
维修许可:对从事民用航空器维修的单位或个人进行审查,核发维修许可证,以确保其具备相应的维修能力和质量保证。
零部件制造人批准书(如适用):对制造民用航空器零部件的制造商进行审查,并颁发相应的批准书,以证明其制造的零部件符合适航标准。
其他相关许可:根据民航局委托,民航地区管理局还可能负责其他与民用航空产品和零部件合格审定相关的行政许可证件的审批工作。
可以看到这里大模型的输入还是有一定出入,且中华人民共和国交通运输部令2024年第5号,《交通运输部关于修改〈民用航空产品和零部件合格审定规定的决定》,像这类更新的知识,大模型当前知识里还没有覆盖更新到位。
修改前和修改后的示例如下:
新
前
更
新
后
这类没有覆盖到的知识,是需要在后续知识增强的环节里进行补充的。补充的知识可以根据题目解析场景覆盖的范围进行动态调整。
经过分析发现,70%的错题中都出现了大模型知识不具备的问题,因此知识增强会是后续优化一大重点目标。
基于以上数据:没有任何调优的情况下,大模型做题准确率在51%左右,解析准确率在55%左右,且错误的很大一部分原因在知识欠缺上。考虑到我们在知识欠缺的问题上有较好的手段可以提升,因此我们判断,在飞行人员理论考试解析场景,现阶段使用大模型已经具备尝试可行性,这里因为不同行业差异性较大,建议不同行业都做一次可行性评估。
四、优化点分析及优化方案
在本类场景中,一般在刷题的APP中已经有预置/处理好的题库,是标准的文字内容,可以直接拼接成大模型的标准输入,因此在这个环节里,我们只讨论和大模型相关的优化方案。
我们根据大模型的输出内容进行分析,观察和总结出以下几个优化点:
大模型的指令跟随问题 | 大模型的推理能力问题 | 大模型相关知识没有覆盖的问题 |
---|---|---|
输出内容较为啰嗦,且每次输出格式不太固定;一般刷题APP里会有特定的解析风格,需要大模型按照统一的风格来输出。从初步评估的结果来看,首先需要做的就是提升大模型在指令跟随上的稳定性 解决方案>> |
一些较为复杂计算题目里,容易解析出错,或解析内容没有给出完整的思路,不便于用户进行理解 - 这里初步分析结论是,在难度较高的题型需要提升模型复杂推理能力和输出解析思路 解决方案>> |
大模型因知识不具备出现幻觉,或因为知识不是最新的导致解析错误 - 需要在知识上做对应增强补充 解决方案>> |
4.1 输出啰嗦&不按固定格式问题及优化方案
这里直接先以ERNIE 4.0尝试,一般而言,在ERNIE 4.0上,验证过最优的prompt,也适用于文心大模型的其他模型
点击展开问题示例
你是一名资深飞机技师,现在要完成飞机技师技术考试。我会给你{题目},请根据你的行业知识以及给你的正确答案,给出对应的做题推导过程
{题目}:
按仪表飞行规则运行的航空器发生导航、进近或通信设备 故障时,机长应当尽快向( )报告。
A、空中其他航空器
B、空中交通管制
C、民航管理局
D、公司运控中心
标准答案:B
#大模型回复
这是一道关于航空器操作规则的问题。我们可以根据题目描述和各个选项进行逐一分析,以确定正确答案。
题目描述:
按仪表飞行规则运行的航空器发生导航、进近或通信设备故障时,机长应当尽快向谁报告?
现在我们来分析各个选项:
A. 空中其他航空器:虽然在空中飞行时,航空器之间需要进行必要的通信以确保飞行安全,但当发生导航、进近或通信设备故障时,直接向其他航空器报告可能并不是最高效或最恰当的方式。其他航空器可能无法提供及时的帮助或指导。
B. 空中交通管制:空中交通管制(ATC)负责管理和指导空中飞行的航空器,确保它们安全、有序地运行。当航空器发生导航、进近或通信设备故障时,迅速向ATC报告是至关重要的。ATC能够及时了解航空器的状况,提供必要的导航和通信支持,以及与其他相关部门的协调,从而确保航空器的安全。
C. 民航管理局:虽然民航管理局是负责民用航空的监管和管理机构,但在紧急情况下,如导航或通信设备故障,直接向民航管理局报告可能不是最立即和有效的做法。这种情况下,更需要的是实时的操作支持和协调,而这正是空中交通管制的职责。
D. 公司运控中心:航空公司运控中心在航班运行和管理中扮演重要角色,但当航空器遇到紧急技术问题时,如导航或通信设备故障,首先需要的是空中交通管制的直接支持和协助。运控中心虽然会随后介入处理,但不是机长在紧急情况下的首选报告对象。
综上所述,当按仪表飞行规则运行的航空器发生导航、进近或通信设备故障时,机长应当尽快向空中交通管制(B选项)报告。这样做可以确保及时获得必要的支持和协助,从而最大程度地保障航空器的安全。
可以看到上述大模型的回复虽然非常详尽,但从用户解读的角度而言会比较啰嗦。本题是有明确的法规规定的,且选项中并没有额外的信息需要去做逐条分析,更多是需要能引用对应的法规条款,让用户知道出处来进行有针对性的知识点加强巩固。
首先优化的就是回复啰嗦的问题,以及能让大模型回复按我们预期格式来输出。通常这类的优化,我们会从Prompt Engineering和SFT两个层面来进行。先优化Prompt,看具体表现。若效果不满意,再到SFT阶段持续优化。
优化前,我们需要先定义输出的具体要求。
如在这类飞行人员理论考试场景题目解析场景里,我们希望输出按如下要求:
要求一 | 要求二 | 要求三 | 要求四 |
---|---|---|---|
输出内容尽量简洁明了,控制在一定字数内 | 需要对法规或条例进行一定的引用,来帮助用户真正掌握知识 | 需要从知识本身出发,而不是通过做题技巧。或者通过答案倒推来解释说明,要给出客观的解析内容 | 不需要重复答案,不要重复题目,直接给解析内容 |
这里我们先把定义的标准重新整理进prompt中,这里先以标准的单选题的要求举例:
#优化啰嗦&格式的prompt
你是一名资深飞机技师,现在要针对飞机技师技术考试题目输出高质量的解析内容。我会给你{题目}和A、B、C、D四个选项,请根据你的行业知识以及给你的正确答案,给出对应的做题推导过程,输出内容请严格按以下要求执行:
1. 输出内容尽量【简洁明了】,但不能缺失核心推导过程
2. 从知识本身出发给出客观的解析内容
3. 输出需要以航空法规或条例来源开头,如“根据《中华人民共和国航空法》/《中华人民共和国飞行基本规则》”,若能检索到具体出处,需要精确到是【第几条】
4. 不需要重复标准答案是什么,只需要输出解析过程
#考试题目和答案
{题目}:
按仪表飞行规则运行的航空器发生导航、进近或通信设备 故障时,机长应当尽快向( )报告。
A、空中其他航空器
B、空中交通管制
C、民航管理局
D、公司运控中心
题型:单选题
标准答案:B
##输出解析内容
接下来可以先跑一轮批量测试,看看prompt调整的效果,再总结出现的bad case做进一步优化
#大模型输出
根据航空交通管理规范,当按仪表飞行规则运行的航空器发生导航、进近或通信设备故障时,为确保飞行安全,机长应立即向负责当前空域管理的空中交通管制报告,以便及时获得指导与协助。因此,正确选项为B,即向空中交通管制报告。
可以看到,大多情况下,大模型输出已经能控制的相对较好了。但还是会偶发没有遵循指令的情况。这里我们可以再加入一个few shot,来进一步给大模型参考,约束输出格式。这里的示例,需要按上述标准标注一个结果放入prompt:
#few shot进一步优化啰嗦&格式的prompt
你是一名资深飞机技师,现在要针对飞机技师技术考试题目输出高质量的解析内容。我会给你[题目]和A、B、C、D四个选项,请根据你的行业知识以及给你的正确答案,给出对应的做题推导过程,输出内容请严格按以下要求执行:
1. 输出内容尽量【简洁明了】,但不能缺失核心推导过程
2. 从知识本身出发给出客观的解析内容
3. 输出需要以航空法规或条例来源开头,如“根据《中华人民共和国航空法》/《中华人民共和国飞行基本规则》”,若能检索到具体出处,需要精确到是【第几条】
4. 不需要重复标准答案是什么,只需要输出解析过程
5. 参考[标准示例]格式输出
[标准示例]
{题目}:飞行中,遇到特殊情况时,为保证民用航空器及其所载人员的安全,( )
A、机组成员有权对民用航空器作出处置
B、飞行机组成员有权对民用航空器作出处置
C、乘务员有权对民用航空器作出处置
D、机长有权对民用航空器作出处置
题型:单选题
标准答案:D
解析:
中华人民共和国航空法第四十六条,飞行中,对于任何破坏民用航空器、扰乱民用航空器内秩序、危害民用航空器所载人员或者财产安全以及其他危及飞行安全的行为,在保证安全的前提下,机长有权采取必要的适当措施。飞行中,遇到特殊情况时,为保证民用航空器及其所载人员的安全,机长有权对民用航空器作出处置。题目考查的是对航空法的理解,根据法规内容可得出答案
#考试题目和答案
{题目}:按仪表飞行规则运行的航空器发生导航、进近或通信设备 故障时,机长应当尽快向( )报告。
A、空中其他航空器
B、空中交通管制
C、民航管理局
D、公司运控中心
题型:单选题
标准答案:B
##输出解析内容
上面的few shot中的解析内容,就是严格按标注整理的:
- 第一句话,引用具体法规:“中华人民共和国航空法第四十六条”
- 第二句话,展开法规/考点介绍:“飞行中,对于任何破坏民用航空器、扰乱民用航空器内秩序、危害民用航空器所载人员或者财产安全以及其他危及飞行安全的行为,在保证安全的前提下,机长有权采取必要的适当措施。飞行中,遇到特殊情况时,为保证民用航空器及其所载人员的安全,机长有权对民用航空器作出处置。”
- 第三句话,对题目做一定说明和解读:“题目考查的是对航空法的理解,根据法规内容可得出答案”
加入few shot后,我们发现输出格式的稳定性进一步提升,基本解决了输出啰嗦&不按固定格式的问题。如果还想在稳定性上有进一步的提升,可以继续尝试SFT效果,可以参考数学判题最佳实践SFT部分,基本方法类似。
4.2 大模型的推理能力问题优化
基于以上调整后的prompt,在测试一些较难的题目时,大模型可能还是会出现解析内容质量不高的情况,如:
#你是一名资深飞机技师,现在要针对飞机技师技术考试题目输出高质量的解析内容。我会给你{题目}和A、B、C、D四个选项,请根据你的行业知识以及给你的正确答案,给出对应的做题推导过程,输出内容请严格按以下要求执行:
1. 输出内容尽量【简洁明了】,但不能缺失核心推导过程
2. 从知识本身出发给出客观的解析内容
3. 输出需要以航空法规或条例来源开头,如“根据《中华人民共和国航空法》/《中华人民共和国飞行基本规则》”,若能检索到具体出处,需要精确到是【第几条】
4. 不需要重复标准答案是什么,只需要输出解析过程
5. 参考[标准示例]格式输出
[标准示例]
{题目}:飞行中,遇到特殊情况时,为保证民用航空器及其所载人员的安全,( )
A、机组成员有权对民用航空器作出处置
B、飞行机组成员有权对民用航空器作出处置
C、乘务员有权对民用航空器作出处置
D、机长有权对民用航空器作出处置
题型:单选题
标准答案:D
解析:
中华人民共和国航空法第四十六条,飞行中,对于任何破坏民用航空器、扰乱民用航空器内秩序、危害民用航空器所载人员或者财产安全以及其他危及飞行安全的行为,在保证安全的前提下,机长有权采取必要的适当措施。飞行中,遇到特殊情况时,为保证民用航空器及其所载人员的安全,机长有权对民用航空器作出处置。题目考查的是对航空法的理解,根据法规内容可得出答案
{题目}:下列哪种情况不会导致飞行指引消失()
A、两部FD关断
B、坡度超过45度
C、机头向上超过25度
D、当飞机触发超速警告时
题型:单选题
标准答案:D
##输出解析内容
飞行指引系统(FD)是飞机上的重要导航设备,用于提供飞行指引信息。
选项A,当两部FD都关断时,飞行指引自然会消失,因为系统已被关闭,无法提供指引。
选项B,当坡度超过45度时,飞行指引可能会消失,因为此时飞机处于极端姿态,超出了正常飞行范围,系统可能无法准确提供指引信息。
选项C,机头向上超过25度时,同样可能导致飞行指引消失,因为这也是一种极端姿态,可能影响系统的正常工作。
选项D,当飞机触发超速警告时,虽然飞机速度超过限制,但飞行指引系统本身并不会因此消失。超速警告是飞机的安全系统之一,用于提醒飞行员飞机速度过快,而飞行指引系统则负责提供飞行方向等信息。两者虽然都是飞机的重要系统,但触发超速警告并不会直接导致飞行指引消失。
综上所述,根据飞行指引系统的工作原理和飞机在极端姿态下的表现,可以推断出当飞机触发超速警告时,飞行指引不会消失,因此正确答案是D。
在大模型回复中可以发现,很多“极端姿态”的表达和“指引信息”间的关联都没有表达清楚。
这类case我们分析还是需要模型有进一步的分析和推理能力,因此可以考虑强化COT(鼠标悬浮查看概念)的表达,进一步提升模型的推理能力。
点击展开进一步改写后的示例
#加入COT和few shot的prompt
你是一名资深飞机技师,现在要针对飞机技师技术考试题目输出高质量的解析内容。我会给你{题目}和A、B、C、D四个选项,请根据你的行业知识以及给你的正确答案,给出对应的做题推导过程,输出内容请严格按以下要求执行:
1. 一步一步思考,题目解析的推导过程需要仔细分析
2. 输出内容尽量【简洁明了】,但不能缺失核心推导过程
3. 从知识本身出发给出客观的解析内容
4. 输出需要以航空法规或条例来源开头,如“根据《中华人民共和国航空法》/《中华人民共和国飞行基本规则》”,若能检索到具体出处,需要精确到是【第几条】
5. 不需要重复标准答案是什么,只需要输出解析过程
6. 参考[标准示例]格式输出
[标准示例]
{题目}:飞行中,遇到特殊情况时,为保证民用航空器及其所载人员的安全,( )
A、机组成员有权对民用航空器作出处置
B、飞行机组成员有权对民用航空器作出处置
C、乘务员有权对民用航空器作出处置
D、机长有权对民用航空器作出处置
题型:单选题
标准答案:D
解析:
中华人民共和国航空法第四十六条,飞行中,对于任何破坏民用航空器、扰乱民用航空器内秩序、危害民用航空器所载人员或者财产安全以及其他危及飞行安全的行为,在保证安全的前提下,机长有权采取必要的适当措施。飞行中,遇到特殊情况时,为保证民用航空器及其所载人员的安全,机长有权对民用航空器作出处置。题目考查的是对航空法的理解,根据法规内容可得出答案
#考试题目和答案
{题目}:下列哪种情况不会导致飞行指引消失()
A、两部FD关断
B、坡度超过45度
C、机头向上超过25度
D、当飞机触发超速警告时
题型:单选题
标准答案:D
##输出解析内容
飞行指引系统(FD)是飞行仪表的重要组成部分,用于提供飞行姿态的指引。针对题目中的选项,我们可以逐一分析:
A项,两部FD关断。显然,如果两部飞行指引系统都被关断,那么飞行指引自然会消失。这是直接的操作结果。
B项,坡度超过45度。在极端的飞行姿态下,如坡度超过一定限度,飞行指引系统可能无法正常工作,从而导致指引消失。这是为了保护系统免受极端条件下的损害。
C项,机头向上超过25度。与B项类似,当机头向上超过一定角度时,飞行指引系统可能因无法准确提供指引而失效,导致指引消失。
D项,当飞机触发超速警告时。超速警告是飞机安全系统的一部分,用于提醒飞行员飞机速度过快。然而,这一警告的触发并不会直接导致飞行指引消失。飞行指引系统的主要功能与飞机速度无直接关联,而是与飞行姿态相关。因此,即使触发超速警告,飞行指引仍应正常工作。
综上所述,根据飞行指引系统的工作原理和特性,只有D项“当飞机触发超速警告时”不会导致飞行指引消失。
可以明显看到加入了COT内容的Prompt,使得大模型的解析质量有了明显提升。
4.3 大模型相关知识没有覆盖问题优化
除了以上问题,我们发现大量的bad case背后的原因,都是集中在大模型没有对应的行业知识。
一般来说,可以通过两类手段来对大模型的知识内容进行补充:
领域精调 | 知识注入 |
---|---|
在有了一个预训练的大模型后,可以通过Post-pretrain的方式,将特定领域的知识训练进去。需要整理大量的泛文本无标注的行业知识数据进行预训练,可以得到一个具备更多特定行业知识的大模型。 再通过SFT进行进一步的训练,针对不同的下游任务进行微调,从而提高模型在特定任务上的性能。 |
通过插件的方式将正确的知识文本注入prompt中,利用大模型ICL (In Context Learning)的能力,输出正确的响应。 插件一般可以考虑使用搜索组件或者知识库来进行知识注入。 |
因为Post-pretrain一般至少需要10亿级别的tokens训练语料才能得到一个较好的效果。因此我们都建议先尝试用插件的方式来进行尝试,如果效果达不到预期,再去尝试Post-pretrain的训练方式,由易到难进行验证。
同时在搜索上,我们验证后发现飞行人员理论考试的公开知识较少,通过搜索无法很好补充对应欠缺的知识。因此接下来的工作,会重点从知识库(RAG)的方式做介绍,搜索组件作为补充内容,这里需要使用到AppBuilder产品。
4.3.1 搜索组件介绍
在组件广场中,AppBuilder预置了百度搜索组件(BaiduSearch),可以通过百度搜索引擎搜索相关内容。相关调用和响应参数如下:
4.3.2 知识库(RAG)应用介绍
4.3.2.1 知识库对应材料清洗
数据清洗是一个关键步骤,数据质量的好坏会直接影响到大模型输出的质量,行业法规材料的清洗可以参考如下策略:
策略一 | 策略二 | 策略三 |
---|---|---|
保证内容都是标准的文字格式,当前大语言模型还无法识别图片信息。表格信息最好也能改写,或整理成markdown格式的数据 | 移除不必要的噪声数据信息,如不需要的元数据、特殊字符、文本信息或HTML标签信息 | 保证信息的准确性,包括法规信息错误、错别字、语法错误等 |
这里需要明确的是,需要整理的知识包括测试后发现大模型里不具备的知识,也包括标准/法规更新后的知识(大模型内不满足时效性的知识),以上类别的知识补充覆盖的越全,大模型针对相关问题回复的质量越高
4.3.2.2 内容切片策略
对文本信息完成整理后,在产品中选择内容切片策略。切片是将大块文本分解成小段的过程,可以帮助我们优化从向量数据库被召回的内容的准确性。当前可选择自动分段与自定义分段两种方式。在自定义方式下,可自行配置分句标识符、分段最大长度、分段重叠最大字数占比。
同时可以选择知识增强策略,知识增强是在检索问答时通过知识点来索引到对应的切片,大模型根据切片内容生成答案,开启知识增强会调用大模型抽取更加丰富的知识点,增加切片的召回率。
这里需要观察切分后文档的质量,在查看知识库页面中,可以对单个文档做查看切片操作。
这里我们需要对切片质量进行判断,切片质量对于知识库应用的问答效果有明显影响,在将知识库与应用关联之前,建议人工检查分段质量。
一般认为好的切片内容,是可以确保搜索结果准确地捕获用户查询的需求本质的。检查分段质量时,一般需要关注以下几种情况:
分段过短 | 分段过长 | 语义截断 |
---|---|---|
过短的文本分段,导致语义缺失 | 过长的文本分段,导致语义噪音影响匹配准确性 | 明显的语义截断,在使用最大分段长度限制时会出现强制性的语义截断,导致召回时缺失内容 |
根据实践的经验来看,需要保障切分后的切片信息是完整、关联的,没有对上下文很强的依赖,可以让召回后的片段能使大模型其更容易理解其文本结构和内容。确保搜索结果的准确性和相关性。
如在《中华人民共和国民用航空法(2021年修正)》内容中,我们发现每一章的内容描述的是一类具体的法规,且部分条目之间有一定的关联性,大多章节内容都在切分的限制字数内,那此类文档,更建议我们用自定义的切片策略去处理。如在文档中调整切片的标识符,保证段落的完整性。这里调整过后,可以在切片详情里看到对应的知识片段已经较为清晰和完整,包括知识增强的知识点也能较好对应。
4.3.2.3 检索策略和检索参数
在AppBuilder产品里创建应用,挂载已经创建好的知识库。在知识库的高级配置里,选择对应的检索策略和召回策略
检索策略可按照指定的检索策略从知识库中寻找匹配的片段:
混合检索 | 语义检索 | 全文检索 |
---|---|---|
使用倒排索引和语义检索两种策略进行召回,推荐在需要对句子理解和语义关联性的场景下使用,综合效果更优 | 语义检索将返回与查询Query含义相匹配的内容,而不是与查询字面意思相匹配的内容。推荐在需要对上下文相关性和意图相关性的场景下使用 | 使用倒排索引策略进行检索召回,推荐在需要对关键词精准匹配的场景下使用 |
这个场景里,我们观察到部分题目中会包含直接关联知识的关键词,也有部分题目里关联的知识点事需要语义理解的,因此在这个场景里,检索策略使用混合检索。
另外,知识库支持设置召回与输入Query匹配的片段个数,以及匹配分。片段个数设置的越大,召回的片段越多。匹配分则是相似度阈值的概念,在检索过程中用来计算输入Query和知识库片段的相似度,高于或等于设定的匹配分的片段将会被召回。
这里片段个数和匹配分的设置,我们建议先做一些样本测试,根据观察到的结果来做调整,在不同解析场景和知识文本里,效果可能不同。我们这里先设置成召回数量=3,匹配分=0.7来做初步的测试
4.3.2.4 Rerank重排序
重排序Rerank的理念是,向量相似度搜索中的高阈值,并不能完全说明内容有最高的相关性。重排序模型通过将候选文档列表与用户问题语义匹配度进行重新排序,从而改进语义排序的结果。其原理是计算用户问题与给定的每个候选片段之间的相关性分数,并返回按相关性从高到低排序的文档列表。
在选择了混合检索策略时,检索器会在所有与应用关联的知识库中去检索与用户问题相关的文本内容,并将多路召回的相关文档结果合并,并通过后置的重排序(Rerank)步骤对检索召回的文档进行语义重排。这里不需要我们额外配置,已经在策略里默认实现了以上机制。
4.3.3 创建完整组件/应用
这里我们在AppBuilder上有两种方式做应用的发布:
- 创建Agent应用,在应用的能力拓展部分,选择搜索组件和对应的知识库信息。
- 创建工作流组件,在预置组件画布中,组织对应的搜索组件和知识库逻辑,然后发布为“我的组件”。最后创建Agent应用,选择对应发布的组件即可。
相对而言,创建Agent应用的方式更加便捷。创建组件后在Agent中发布的方式,更为灵活,可以通过工作流的方式定义整体执行流程,同时可以使用分支器、代码等组件。下面会分别介绍这两种模式。
4.3.3.1 通过Agent应用的方式创建
在创建应用入口中,应用的能力拓展部分,选择搜索组件和对应的知识库信息:
同时在知识库的高级配置中,设置检索和召回策略。可以开启网页搜索增强,开启网页搜索后可通过设置知识库和搜索的查询顺序来控制回答内容的置信度和丰富度。可以根据需求开启融合检索模式、知识库优先模式或网页搜索优先模式。可以如果知识库内容质量高、覆盖全,建议选择知识库优先模式。
之后在角色指令中,补充我们之前优化后的prompt。可以在控制台上做几轮测试。
没问题后发布为应用,可以通过Open API或SDK的方式进行调用。
4.3.3.2 通过工作流组件的方式创建应用
在创建组件中,选择空画布:
接下来在画布中可以定义基础节点或组件节点。
可以根据业务流逻辑来自行定义执行流程,这里我们为了展示工作流方式的灵活配置,做了两类的流程设计:
- 题目信息过知识库 -> 过搜索插件 -> 整理&聚合内容 -> 过解析大模型 -> 输出结果,查看配置>>
- 意图识别检测题目是否相关 -> 题目信息过知识库 -> 若知识库没召回内容,直接反馈“无法回答” -> 若知识库有召回内容过搜索插件补充 -> 整理&聚合内容 -> 过解析大模型 -> 输出结果,查看配置>>
4.3.3.2.1 搜索和知识库内容聚合后输出
点击展开流程一的参考配置
画布内容创建:
同样在知识库中,用如下的方式配置:
这里我们观察到搜索的结果不一定都是有效信息,因此用大模型做了一道处理,筛选出有效信息后在和知识库的内容做拼接,一并放至解析生成的大模型prompt中。
搜索信息整理模型的prompt可以参考如下示例:
你是一个信息提取工具,现在需要判断哪些信息是和[试题]相关,从[内容]中提取出对应的有效信息,来帮助解题。按遗下要求执行:
1. 一步步思考,仔细分析[试题]需要用到哪些知识点,分析内容不需要输出
2. 仔细分析[内容],判断哪些信息是有效信息,判断过程不需要输出
3. 提取有效信息,尽可能简洁。但核心信息一定要覆盖,如知识信息、解析过程信息或标准答案信息等
4. 直接输出提取后的有效信息,不要输出其他任何内容
#本次试题和内容信息
试题:{{question}}
内容:{{info}}
考虑到判断有效信息的任务难度并不大,这里可以选择ERNIE 3.5或更小参数的模型,可以有效降低延迟和控制大模型推理成本
在完成所有工作流组件配置后,我们可以在控制台进行调试,可以用以下题目进行测试:
下列民用航空器应当进行中华人民共和国国籍登记的是:
A.依照中华人民共和国法律设立的事业法人的民用航空器
B.在中华人民共和国境内有住所或者主要营业所的中国公民的民用航空器
C.中国公司自境外租赁的民用航空器,且该航空器未注销他国国籍的
D.依照中华人民共和国法律设立的企业法人的民用航空器
E.中华人民共和国国家机构的民用航空器
把组件过程展开后可以看到,搜索组件和知识库都找到了对应的正确的知识,可以看到在最终输出结果output中,大模型能把有一定难度的多选题给做对,同时给出了简洁准确的解析。测试没问题后,可以发布对应组件。
下一步就是在Agent里用对应组件,创建完整应用。在创建应用页面,选择我们创建好的组件,在角色指令中,强制每次都调用该组件。同时限制好问答模型的输出。
4.3.3.2.2 未命中知识库直接拒答
点击展开流程二的参考配置
整体流程类似,这里画布需要加上分支器和代码节点:
分支器用于判断知识库中是否有召回结果,若无召回结果则直接返回:"对不起,我回答不了这个问题"。分支器中的判断逻辑,可以放在知识库之后,判断知识库content的长度是否小于等于0,若大于0则说明有内容返回
分支器的true分支走代码节点,代码里直接输出对应文字内容;分支器的false分支继续走搜索插件 - 搜索信息整理 - 解析内容生成流程。完全的workflow如下图所示:
这里如果能用条件判断和代码方式完成的任务,不建议用大模型来处理,如用大模型判断和输出拒答结果。原因是大模型会带来一定的延迟和成本,同时还是会存在不确定性
同样可以通过调试来做一些初步测试:
下一步同样是在Agent里用对应组件,创建完整应用。在创建应用页面,选择我们创建好的组件,在角色指令中,强制每次都调用该组件。同时限制好问答模型的输出。
4.3.4 大模型选择
组件中的大模型,若涉及到较深的行业知识解析,或对推理分析能力要求较高,最终的问答解析模型建议选择ERNIE 4.0
应用中的思考模型建议使用ERNIE Speed,问答模型可以按需选择。同时若部分行业中,对大模型的通用能力要求不高,对指令输出的格式要求高,可以考虑基于ERNIE Speed做SFT,在组件/应用中选择SFT后的模型作为问答解析模型。
详细SFT教程可在其他场景案例中进行查看参考,Post-pretrain可查看最佳实践。
五、大模型效果评估
做完对应的调优后,我们可以对优化效果开始进行评估。这里评估的对象是直接封装好的AppBuilder的应用,评估过程一般包含以下阶段:
5.1 评估数据集准备
这里需要准备出一定数量的评估数据集,因为涉及一定的行业深度,建议请资深专家配合整理,如:
评估数据 | 专家标注的解析内容 |
---|---|
{题目}:遇法规要求应急撤离程序的实际演示应该在( )秒内完成。 A、60秒 B、90秒 C、120秒 D、180秒 |
{标准答案}: B {解析}: CCAR-121 第121.161条应急撤离程序的演示 (a)合格证持有人应当依照本规则附件C《本规则第121.161条规定的应急撤离程序演示准则》(a)款规定进行应急撤离程序的实际演示,证明在载客飞行中所用的旅客座位数大于44座的每个型号的飞机,能够使包括机组成员在内的 满载量乘员在90秒含) 以内撤离飞机。但是,如果该型号飞机已被证明符合本规则附件C(a)款规定或者适用的型号合格审定标准,可以不实施实际的演示。 |
{题目}:下列描述正确的是: A、如果无线电通信失效发生在目视飞行规则条件下,航空器驾驶员应当按目视飞行规则继续飞行,并尽快着陆。 B、如果在无线电通信失效后遇到目视飞行条件,航空器驾驶员应当按目视飞行规则继续飞行,并尽快着陆。 C、如果在无线电通信失效后遇到目视飞行条件,航空器驾驶员应当按仪表飞行规则继续飞行,并尽快着陆。 D、如果在无线电通信失效后遇到目视飞行条件,航空器驾驶员应当按仪表飞行规则继续飞向着陆机场。 |
{标准答案}: A、B {解析}:第91.377 条双向无线电通信失效 (a)除空中交通管制批准外,在飞行过程中,当双向无线电通信失效时航空器驾驶员必须遵守本条的规则。 (b)如果无线电通信失效发生在目视飞行规则条件下,或者在失效后遇到目视飞行条件,航空器驾驶员应当按目视飞行规则继 续飞行,并尽快着陆。 (c)如果无线电失效发生在仪表飞行规则条件下,并且不能按照本条(b)款实施目视飞行规则飞行,航空器驾驶员应当根据以下 规定继续飞行:(1)按照下列规定确定飞行航线: (i)按照最后接到的空中交通管制许可所指定的航线继续飞行; (ii)如果航空器正在被雷达引导,从无线电失效点直接飞向雷达引导指令所指定的定位点、航线或者航路; (iii)在没有指定航线时,按照空中交通管制曾告知在后续指令中可能同意的航线飞行; (iv)如果不能按照本条(c)款(1)项(iii)目所述航线飞行时,则按照飞行计划所申请的航线飞行。 (2)按照下列高度或者高度层中最高者飞行: (i)无线电失效前最后一次空中交通管制许可中所指定的高度或者飞行高度层; (ii)仪表飞行规则运行的最低高度或者高度层; (iii)空中交通管制曾告知在后续指令中可能同意的高度或者高度层。 (3)离开空中交通管制许可界限: (i)当空中交通管制许可界限是起始进近定位点的情况下,航空器驾驶员如果已收到空中交通管制给出的发布下一许可的时刻,应当在接近此时刻时开始下降或者下降和进近;如果未曾收到发布下一许可的时刻,则尽可能按照提交的飞行计划所计算出的预计到达时刻或者(与空中交通管制一起)修正的航路预计到达时刻下降或者下降和进近; (ii)在许可界限不是起始进近定位点的情况下,航空器驾驶员如果已收到过空中交通管制给出的预计发布下一许可的时刻,应 当在此时刻离开许可界限;如果未曾收到预计发布下一许可的时刻,应当在到达该许可界限上空时继续飞向起始进近定位点,并尽可能按照提交的飞行计划所计算出的预计到达时刻。 |
{题目}低于最佳高度 ( ) ft 的飞行产生超过航程燃油 10 % 的损失。 A、2000 B、4000 C、6000 D、8000 |
{标准答案}: D {解析}:最佳高度层:飞行高度层的选择应尽可能接近最佳。要确定最佳飞行高度层, 或使用 EFB 性能应用。 按照一般规则,低于最佳飞行高度层 4 000 ft 会造成一个很大的损失(约 5 % 的燃油) 。 低于最佳高度 8 000 ft 的飞行产生超过航程燃油 10 % 的损失。(一般飞机携带应急燃油为 5 %)。 |
这里需要注意:
数据集数量 | 数据重复 | 调整prompt | 数据分布 |
---|---|---|---|
保证一定的评估数据集数量,如1000条以上。这样能更客观的统计出大模型的真实效果 | 如果在模型中,涉及了SFT的训练,需要保证评估数据集不在训练集中,若用训练集数据去评估,评估结果一般会表现的非常高。 | 评估数据集中,输入大模型的内容,需要根据评估的手段去做调整prompt,对比不同的prompt下是否有正向提升 | 评估数据集中,也需要保证合理题型分布比例,如单选题、多选题、判断题、填空题等。 |
5.2 建立评估体系
开始评估前,需要建立对应的评估体系。在本次职业教育解析场景中,我们整理出了如下评估指标:
解析答案准确率 | 解析内容准确率 | 输出格式稳定性 |
---|---|---|
准确率=大模型给出正确答案的题目 / 2000*100% | 准确率=大模型给出正确解析的题目 / 2000*100% ,这里解析内容建议专家人工逐条评估 | 稳定性=输出结果指令完全遵从的数量 / 2000*100% ,这里不关注结果的正确性,只看是否和预期指令的输出要求一样,如:结果先输出法规、再做知识解读、题目分析,最后给出最终答案 |
这里分开评估的目的是,可以根据模型反馈结果,有效的评估Prompt或模型能力在哪些方面还有不足,可以有针对性的进行调优如:
输出格式稳定性差 | 解析答案准确率低 |
---|---|
可以多在prompt加强输出格式的要求;或者给出对应输出格式的few shot,让模型更好的跟随质量要求;或观察到Prompt修改对格式提升影响低,可以直接考虑到SFT环节去提升效果 | 需要判断是模型本身能力不足,还是知识库内容覆盖度不够。若是知识覆盖问题,需要进一步补充RAG内容。若是模型本身能力不足的问题,可以替换更大参数量的模型来做尝试 |
5.3 大模型批量推理评估
接下来,我们对准备好的评估数据集进行跑批量评估,可以通过API或SDK来使用
在大模型的选择上,我们建议建议采用多个模型进行验证,可以观察在不同大模型上的表现差异,帮助确定最终模型选择,如:
ERNIE 4.0
ERNIE 3.5
ERNIE Speed
(ERNIE Speed SFT模型可自行尝试评估)
在优化手段的评估上,我们建议把之前所有的优化过程都纳入评估体系中,观察调优效果的变化,包含Prompt Engineering优化手段,以及SFT的优化手段,如分为:
原始Prompt
优化啰嗦&格式的prompt
加入COT和few shot的prompt
其他App builder中思考模型、搜索插件内容整理模型的prompt,可自行尝试评估
六、整体总结
以上,我们基本完成了职业教育解析场景中的飞行员考试解析应用落地。总结一下,通用的落地流程基本可以分为:
业务可行性评估 -> 优化点分析 -> 大模型效果优化 -> 知识库(RAG)&搜索优化 -> 效果评估 -> 确定大模型选择&优化手段选择 -> 部署上线
在大模型优化点分析环节,上述思路也适用于其他业务场景:
通过和大模型的多轮交互和评估测试总结出几类问题 -> 分别分析问题根因 -> 判断大模型优化手段(Prompt Engineering/SFT/Post-pretrain……)-> 验证优化结果 -> 根据需求多轮迭代
整体业务架构建议:
最后,如果以上优化后的效果,依旧达不到上线要求,可以参考其他优化建议中内容进行尝试
业务demo效果展示
其他优化建议
数据处理 | 增加节点 | 扩大样本 | 区分场景 |
---|---|---|---|
如果业务逻辑是从OCR拍摄题目,过模型出解析结果,依旧会存在大量OCR噪音导致结果不准确。需要从OCR及清洗策略上做好数据前处理。另外,可以考虑在OCR解析后,再单独过一次大模型,针对OCR的输出文字进行结构化处理,能清晰的提取出[题目]、[选项]等信息,有助于提升大模型解析效果 | 如果搜索组件和RAG召回效果不好,可以考虑在前面加一个大模型节点,专门处理知识点提取,作为搜索组件和RAG的输入,提高召回知识片段的质量 | 针对新增的bad case或corner case,通过Prompt手段持续覆盖优化 | 可以区分不同的行业场景的解析任务,做对应独立的Agent应用。因不同行业可能涉及的流程不一样,知识库内容也不一样。越聚焦的任务和场景,大模型处理的效果会越好 |