知识库
名词解释
AI Agent:Agent = LLM + Planning 计划+ Tool use 执行 + Feedback 纠正偏差。在传统大语言模型的基础上,Agent不仅仅停留在和大模型的聊天对话,其可以借助外部工具直接帮助我们完成某些任务。在百度客悦智能客服平台中,将采用LLM+NLP双引擎结合方式,搭建AI Agent。
文档知识:文档知识用于用户管理和维护非结构化的文档知识,即通过上传文档即可实现智能问答。
FAQ知识:FAQ知识用于用户管理和维护结构化的FAQ知识,即用户提问时匹配到FAQ时,可以使用FAQ中的答案进行回复。对于用户频繁会问到的业务知识类问题的自动解答是一个非常关键的需求,通过对FAQ知识的整理可以最为显著地降低人工客服的数量与成本,同时可以给客户带来更好的回复体验。
功能概述
在百度客悦智能客服平台中,通过知识库管理客户现有的非结构化知识(文档)和结构化知识(FAQ),整体分为3个区域:知识目录管理区域、知识管理区域、知识库工具栏,支持在大模型的加持下提供知识问答能力,具体包含功能如下:
1、知识目录
- 用户可通过左侧导航栏进入「知识库」,知识库支持通过「知识目录」对知识进行分类管理,最大支持10级目录,按需进行配置,不建议将不同类别的知识放到同一目录下
-
系统预置一个“默认”目录节点,此节点不可编辑、删除,在默认节点下可添加多级子目录;进入如下的目录管理界面,对目录进行增删改查,相关操作包括:
- 增加:选中某一父节点,在其下添加子目录或同级目录;
- 删除:删去某条目录及其下子目录、问答对;
-
编辑:修改目录名称;
- 目录名称支持输入2-50个字,且同级目录名称不允许重复;
- 支持对已有的目录进行修改、删除(删除目录的同时会将目录及其子目录,还有目录下的知识一并删除,请谨慎操作!);
- 选择不同的目录即可查看此目录下的知识内容,便于管理
2、文档知识
2.1 上传文档
-
文档知识用于管理和维护非结构化的文档,用户可选定目录后,点击页面左上角「上传知识文档」按钮,支持从本地导入文档,导入规则如下
- 上传的文档名称不重复,否则无法上传成功。
- 建议使用结构化清晰的文档,可以有更好的问答效果;
- 当前支持txt、doc、docx、pdf格式的文档或者文档的压缩包(.zip、.rar、.7z)上传,但无法学习文档内图片里的信息内容;每次支持上传1个文档,如需上传多个文档,请以压缩包上传;
- 建议给文档以恰当的名字命名,以能简明代表文档内容,这对于模型训练很重要,比如《海淀公园景区介绍》,而不是《文档1》;长度为3-80个字,否则将无法上传成功;
- 每篇文档的大小上限是50M,最多1000页
- 上传文档成功后请刷新页面查看文档
-
对上传后的文档支持选择分段设置,分段设置主要用于对上传文档进行文档解析,将文档按照语义拆分成一个个段落,同时支持对文本进行预处理,支持选择「自动分段与数据清洗」或「自定义分段与数据清洗」
- 「自动分段与数据清洗」:系统根据最佳实践,通过预设的自动设置分段规则与预处理规则,如果不了解这些参数建议选择此项,默认选择「自动分段与数据清洗」
-
「自定义分段与数据清洗」:自定义分段规则、分段长度以及数据预处理规则等参数,支持配置以下参数:
-
文本预处理:支持对文档内容进行预处理,可选择
- 删除连续空格、换行、制表符
- 删除目录、页眉、页脚
-
分段标识符:用于模型解析文档判断自然段落标识符,模型将会文档按照段落标识符将文档拆分成多个段落,再结合语义理解及分段最大长度完成段落分片
- 换行切分:指在切分最小段落时,按照换行符进行切分
- 标点切分:指在切分最小段落时,使用预置的标点符号(如:中文句号、叹号等)做最小段落切分。建议在一些全文无结构、通篇使用大段落进行描述的文档
- 分段最大长度:用于设置文档分段是拆分出分段的最大长度,支持配置范围200-800.
- 分段重叠比:用于设置在文档分段时,下一个分段与上一个分段重叠的文本长度百分比;建议在分段标识符设置为标点切分时使用。配置范围0-20%。
-
2.2 文档知识运营
- 当文档上传成功后,可在文档知识列表中查看到文档信息
-
在管理和运营文档时,支持对文档知识进行如下操作:
- 知识增强:文档上传学习成功后,知识增强默认关闭,可手动对文档进行开启知识增强;开启后模型对文档内容会启动增强学习,用于提升用户输入后辅助提升从文档中检索到相关文档内容的准确性,知识增强会消耗token。
- 分段设置:文档上传学习成功后,如分段结果不符合预期,可对文档分段设置进行调整,调整分段设置后,文档会进行重新学习,原学习内容全部会被覆盖,如当前文档已开启知识增强,会重新进行知识增强,消耗token。
- 重新学习:当文档状态为学习失败时,支持文档重新学习,即当文档因为一些原因导致模型学习失败时,通过重新学习触发模型重新对文档内容进行处理;
- 文档生失效:用于对文档状态进行管理,当文档生效时,在问答过程中文档内容可被进行查找用于进行问答;如果文档处于失效时,则失效的文档内容不会被用于问答。主要应用场景为文档有有效期,到期后不在参与问答;
- 导出:支持单个文档导出、按目录导出、全量导出,便于进行知识的维护和迁移;
- 删除:支持对文档进行删除,用于删除一些无效文档,或因导入错误上传的文档等情况;
- 当文档学习成功后,即可查看文档的详情,用户可点击文档的名称进入文档详情中,并对文档知识详情进行管理
- 文档详情内容分为3部分:文档原文、分段信息、分段知识
- 「文档原文」:即展示上传的文档原文
-
「分段信息」:即展示基于文档原文,模型根据配置的分段规则拆分出的一个个文档分段
- 支持新建分段,当出现分段不符合预期时,可点击新增分段,添加新的分段信息
- 新增分段时,在文档原文中会通过不同的底色展示当前文档内容的分段情况,便于识别已经分段的文档内容;新增分段时需在文档原文区域通过鼠标划选分段的内容(被选中的文本内容会高亮展示),点击确定完成新增分段内容的选择(这样可以记录下分段信息在文档中的位置,在问答中可以追溯回复答案的来源,让回复有据可依)
- 支持对文档分段进行编辑,当出现分段内容不符合预期,需要增加、删除部分内容时,可对当前的分段内容进行修改,点击需要修改分段信息的「编辑」按钮,进入编辑态
- 分段信息进入编辑状态后,在文档原文中会自动定位到当前分段在文档中的位置,并将分段的内容进行高亮展示;修改后的内容需在文档原文区域通过鼠标划选分段的内容(被选中的文本内容会高亮展示),点击确定完成分段内容的选择(这样可以记录下分段信息在文档中的位置,在问答中可以追溯回复答案的来源,让回复有据可依)
- 在分段信息内容编辑框中也可进行内容的修改。建议只在模型基于分段内容总结回复有偏差时,仅需修改少许内容即可纠正回复结果时使用,大篇幅修改会导致分段信息和原文不符,在回复内容中展示来源时,会出现回复与来源不一致,造成不好的体验
- 支持对文档分段信息进行删除,当分段信息不符合预期,存在需要多分段合并,或者将原分段拆分成多个分段时,可将分段删除,然后再进行新增或编辑;
- 「删除」操作有二次确认,确认后完成删除,删除后的分段信息不会用于问答;
- 支持对文档分段信息进行生失效,文档分段信息的生效失效主要应用的场景为在文档中某个段落内容有有效期,比如:某政策法规描述政策内容的有效期为2023-10-31,那对于这类场景,失效后的政策不希望再用于问答,那在保留分段信息的前提下,可以将分段信息设置为失效,失效状态的分段信息不会被用于问答(反之,生效状态的分段信息可用于问答),但可以通过知识搜索搜索到。
-
「分段知识」:分段知识用于在用户提问时进行问题相关性匹配,当匹配相似度达到设定的阈值,即可将分段知识所关联的分段信息给到大模型进行总结回复
- 支持对分段信息进行新增、编辑、删除;
- 点击某个分段信息,即可展示此分段信息下的所有分段知识,分段知识的内容直接关系到问答的准确性,在整个文档知识问答过程中,系统接收用户提问的内容,然后在文档知识中搜索和用户提问相关的分段知识,获取大于等于文档检索置信度(在Agent设置-知识库设置页面中配置)的分段知识所关联的分段信息输入给大模型,大模型基于用户提问和输入的分段信息进行总结回复;
- 当出现大模型回复错误,可通过对分段知识的调优完成badcase的干预;例如:用户某个提问,输入给大模型的分段信息不是预期分段信息,则可在预期分段信息关联的分段知识中增加用于提问的分段知识完成快速的干预优化;
2.3 知识增强
支持对文档进行知识增强的开启和关闭
-
开启知识增强
- 当文档状态为学习成功且知识增强状态为未开启状态时,可对文档开启知识增强操作
-
知识增强支持对单个文档进行操作,点击知识增强开关按钮
-
知识增强支持批量对多个文档进行操作,勾选要开启知识增强的文档,点击「批量操作-开启知识增强」
-
知识增强支持按目录进行操作,点击知识库工具栏的「知识增强」按钮。选择开启知识增强文档所在的目录,操作后仅对未开启知识增强的文档进行增强学习
-
开启知识增强会消耗token,点击确定进行二次弹窗提示预计消耗的token(非实际消耗,仅供参考)
- 操作开启知识增强后,知识状态变为「知识增强中」,未增强完成时文档数据不可修改
-
关闭知识增强
- 当文档状态为学习成功且知识增强状态为开启状态时,可对文档关闭知识增强操作,知识增强关闭后不会删除已增强的知识,后续操作分段设置或对文档中的分段进行增加、修改,都不再进行知识增强
-
关闭知识增强支持对单个文档进行操作,点击知识增强开关按钮
-
知识增强支持批量对多个文档进行操作,勾选要开启知识增强的文档,点击「批量操作-开启知识增强」
-
知识增强支持按目录进行操作,点击知识库工具栏的「知识增强」按钮。选择关闭知识增强文档所在的目录,操作后仅对开启知识增强的文档进行知识增强关闭操作
-
点击确定进行二次弹窗提示,点击确定完成操作
2.4 分段设置
文档上传且学习成功后,如果文档分段结果不满足要求,支持人工修改分段配置,进行重新分段
-
修改单个文档的分段设置
-
选择要修改分段设置的文档,点击操作区的「分段设置」按钮,弹出分段设置配置窗
- 默认展示当前分段设置配置的策略,可按需修改,修改完成后点击确定,所操作文档会进入重新学习,历史学习数据全部被覆盖;如果文档已开启知识增强,会重新进行知识增强,会消耗token
-
-
批量修改文档的分段设置
-
选择要修改的文档,点击「批量操作-分段设置」,进入到分段设置窗
-
分段设置默认配置,可按实际情况调整分段设置的策略配置,修改完成后,点击确定,所操作文档会进入重新学习,历史学习数据全部被覆盖;如果文档已开启知识增强,会重新进行知识增强,会消耗token。
2.5 批量编辑
-
批量编辑支持对选择的文档知识进行生/失效时间、发布时间进行快速批量编辑
- 选择要编辑的文档知识,然后点击「批量操作-编辑」按钮,即可对选择的文档知识进行批量编辑;
- 按需对选择的文档知识进行内容修改,修改完成后,点击确认更新修改的内容;如点击「取消」则不对选择的文档知识进行修改;
2.6 批量删除
-
批量删除支持对选择的文档知识进行批量删除操作
- 选择要删除的文档知识,然后点击「批量操作-删除」按钮,即可对选择的文档知识进行批量删除;
- 「删除」操作有二次确认,用户点击确定对选择的文档知识进行删除操作,点击取消不进行删除;
2.7 批量重新学习
- 「批量重新学习」支持对文档状态为学习失败的文档快速进行重新学习,选择状态为失败的的文档,点击「批量操作-重新学习」,即可对学习失败的文档进行重新学习(状态为:成功、学习中的文档不支持重新学习)
3、FAQ知识
- 通过维护标准问与相似问,可识别针对同一问题的不同问法。区别于大量添加相似问的传统方式,百度基于搜索数据构建深度学习模型来识别问题相似性,泛化能力更强,可大幅降低扩展问维护量。FAQ知识不仅支持文本内容, 为了支持回复的多样性和前端展示形式的多样化,支持文字、表格、图片(Gif动图)、超链接等富媒体信息
1. 标准问:一个FAQ知识最标准的询问方法,维护好标准问可方便知识浏览和编辑时的快速定位和理解。
2. 相似问:与标准问表达相同语义的句子,一个标准问可对应多个相似问。用户对机器人发送消息时,语义匹配到标准问或相似问均可匹配到此知识。例如,标准问:银行存款业务有哪些,相似问:什么是银行的存款业务。
3. 问答模板:用户表述中包含问法的对应关键词或匹配到模板表达式时,即回答此问题下答案。在项目初期语料不足和长难句难以识别的情况下,添加关键词和模板规则有利于识别用户问并做出回复。
4. 答案:用户发送的消息匹配到标准问或相似问时,回复给用户的内容。同一问题下可以有多个答案,在触发问题时随机回复。
5. 生效FAQ:针对生效FAQ,用户提问类似问题机器人将直接作答。用户可在FAQ知识列表页设置问题的生效。
6. 失效FAQ:针对失效FAQ,用户提问类似问题机器人将无法回应此答案。用户可在FAQ知识列表页设置问题的失效。
3.1 添加FAQ
- 用户可点击「添加FAQ」,进入添加FAQ详情页
- 用户需要输入「标准问题」、「相似问」、「生失效」、「答案」
- 标准问题:无输入限制,最大支持输入140个字且FAQ知识下不允许重复;
- 相似问:与标准问题语义相近的问法,输入限制规则和标准问题一致;
- 大模型生成相似问:即利用大模型参照标准问题生成语义相同的相似问法,单次最大支持生成10个相似问(生成的相似问会与已有FAQ知识进行去重过滤,可能生成出的数量小于选择生成时的数量;同时生成的相似问也会与已有FAQ知识进行相似度比较检测,会提示生成/添加的相似问与已有FAQ哪些相似度比较高,用于辅助进行判断是否需要进行添加)。在添加时,单次最大支持添加30个;
- 问题是否生效:用于配置此FAQ添加成功时是否处于生效状态,如果设置生效,可配置失效时间,默认失效时间是2099-12-31 23:59:59
-
答案:点击新增答案,可添加多个答案,最多可添加5条答案,触发问题时随机回复;答案支持文本、富文本、图片3种回复形式;
- 当答案是文本类型时,支持基于大模型生成语义相同的答案,单次最多生成5条,可生成的数量根据已配置的答案数量进行变化;
- 文本答案支持以占位符的形式将答案中部分内容作为动态变化内容,从而实现与业务系统或第三方系统对接,用户最终可以得到千人千面的个性化答案。基本的使用方式是:在答案中输入{ &内容,产品自动引用出当前的变量列表,可选择需要引入的变量,作为占位符代表变量中的值(注意,变量必须在变量管理中被定义过才可保存),当系统的上下文变量中存在相应的变量时,问答会将文本与占位符拼接在一起输出,如果变量为空则仅输出文本;
3.2 编辑FAQ
-
确定需要修改的问答,点击「详情」或者点击「问题的内容」,即可进入到编辑FAQ的详情页面,在详情页面中,用户可对「标准问题」、「问题是否生效」、「失效时间」、「答案」进行修改,也可在该页面最下方「其他问法」模块中管理「相似问题」与「问题模版」
- 「相似问题」:同一问题具有多种提问方式时,此时需要通过添加相似问的方式提升问答效果,支持人工手动输入添加相似问或者使用大模型生成相似问的方式去富集相似问,新增的相似问单次最大支持添加30个,确认无误后,点击确定完成添加
- 「问题模版」:通过添加规则模板,提高问题识别率,规则模板需完全匹配;模板编写规则与意图一致,在系统中可查看详细编写规则
3.3 FAQ知识导入/导出
- 导入是将本地包含FAQ的文件上传到系统,导出是将系统已有的FAQ下载到本地
- FAQ导入的是以目录+问题+答案的形式储存的问答对,FAQ导入时可在系统中下载模板,按照模板规定格式上传,上传文件后,点击确定,系统会自动在任务中心创建导入任务,导入的结果可在任务中心的任务中查看
-
通用答案
- 标准问题:必填,最大支持输入140个字
- 答案1类型(1文本、3富文本、4图片):按照答案类型填写对应的数字编号;注:答案1类型(1文本、3富文本、4图片)、答案2类型(1文本、3富文本、4图片)、答案3类型(1文本、3富文本、4图片)、答案4类型(1文本、3富文本、4图片)、答案5类型(1文本、3富文本、4图片)其中一个填写即可
- 通用答案1:当答案1类型填写时,通用答案必填
- 过期时间:非必填,即FAQ的失效时间,到期后自动失效,填写格式2099-12-31 23:59:59
- 生效时间:非必填,即FAQ的生效时间,到时间后自动生效,填写格式2099-12-31 23:59:59
- 目录:选填,填写时必须以/默认开始,填写真实的目录全路径,填写时如果目录不存在,系统自动创建(创建规则同新建目录),如不填写默认导入到当前选择的目录下
-
相似问
- 标准问题(必填):必填,填写要添加相似问的标准问题,如果一个标准问题需要添加多个相似问,则添加多行
- 相似问题(必填):必填,填写基于标准问题要添加的相似问题
-
模板
- 标准问题(必填):必填,填写要添加问答模板的标准问题,如果一个标准问题需要添加多个问答模板,则添加多行
- 问答模板(必填):必填,填写基于标准问题要添加的问答模板,编写规则详见FAQ详情中问答模板的添加规则
-
导出是将系统已有的FAQ下载到本地,FAQ知识支持按目录导出和全量导出
- 按目录导出,选择要导出的知识目录,点击按目录导出按钮,系统自动创建FAQ知识导出任务,可在任务中心查看任务进度,当任务成功后,点击下载文件完成导出的FAQ知识下载;
- 全量FAQ知识导出,点击知识库工具栏“全量导出-导出FAQ知识”,系统自动创建FAQ知识导出任务,可在任务中心查看任务进度,当任务成功后,点击下载文件完成导出的FAQ知识下载;
3.4 知识生失效
- 对于已失效知识,在知识列表切换知识状态,即可将知识生效;对于生效知识,在知识列表切换知识状态,即可即可将知识失败效;若需设置具体生失效时间,需在FAQ知识详情中进行修改
3.5 FAQ知识搜索
- 通过关键字搜索,展示问答库中相匹配的知识,搜索规则包括关键词匹配,搜索范围为目录、标准问、相似问、答案。支持在"答案+标准问"范围,或者"标准问"范围内搜索
- 或在上方导航栏中「知识搜索」,输入关键词,下方即展示搜索结果,详情部分包括状态、目录、问题、答案、操作
3.6 FAQ移动
- 选择要移动的FAQ,点击「批量操作」-「批量移动」,对选择的FAQ知识可进行批量移动,选中需要移动到的目录,点击“确定”,完成FAQ移动
3.7 批量编辑
- 批量编辑支持对选择的FAQ知识进行标准问题、生/失效时间、答案进行快速批量编辑
- 选择要编辑的FAQ知识,然后点击「批量操作-批量编辑」按钮,即可对选择的FAQ知识进行批量编辑
- 按需对选择的FAQ知识进行内容修改,修改完成后,点击提交编辑更新修改的内容;如点击「撤销编辑」则不对选择的FAQ知识进行修改
3.8 批量删除
- 批量删除支持对选择的FAQ知识进行批量删除操作
- 选择要删除的FAQ知识,然后点击「批量操作-批量删除」按钮,即可对选择的FAQ知识进行批量删除
- 「批量删除」操作有二次确认
4、知识搜索
- 知识搜索即支持对知识库的知识进行全局搜索,支持通过输入关键信息按照语义进行搜索到想要查找的知识,用户可点击上方导航栏「知识搜索」进入到知识搜索页面,可对知识库内容进行搜索
-
每条搜索结果提供3个信息:
-
来源:展示搜索结果的来源,来源于文档或FAQ
- 如果为文档时,展示文档名称,点击可进入到对于文档知识详情页
- 如果为FAQ时,展示FAQ的标准问题,点击可进入到FAQ知识详情页
- 匹配信息:展示与搜索内容相关的分段知识以及置信度,置信度越高表示与搜索内容相关性越强
-
检索内容:
- 当来源为文档时,展示检索内容相关文档分段信息内容
- 当来源为FAQ时,展示FAQ配置的答案
-
5、知识库测试
- 知识添加完毕后即可进行问答测试,当用户点击上方导航栏「知识库测试」,即可开始进行对话;输入想要提问的问题,稍等片刻即可回复出你想要的答案,点击来源下的文档可查看回复内容的来源依据,可自动定位到依据所在原文档中的位置
- 在AI Agent回复完毕后,支持查看AI Agent每轮对话的对话分析日志,展示基于知识库问答AI Agent思考的过程,如出现不符合预期的回复,可进行即时干预和调优,同时支持数据反馈回流,帮助我们让AI Agent越来越聪明
-
知识库问答对话分析分析路径:
- 原用户提问:展示用户输入的提问内容;
- 用户可能想问:大模型基于用户历史对话记录和原用户提问,生成出用户可能想要问的问题;
- 当用户可能想问生成错误会影响信息检索搜索到内容的准确性,如错误可进行反馈点踩并输入用户真实想问的问题,可帮助我们后续进行模型迭代优化
-
「信息检索」:用来展示基于用户可能想问从知识库中搜索到相关性(置信度:在知识库设置中可配置检索置信度阈值)最高的TOP N知识(文档知识片段和FAQ),文档知识片段用于给到大模型结合用户可能想问进行总结回复;FAQ知识可知识使用FAQ的答案进行回复或可以给到大模型进行风格改写回复或总结回复(配置详见知识库配置)
- 根据信息检索信息可判断基于用户可能想问检索召回的文档片段或FAQ是否符合预期,如不符合预期可进行快速干预和调优
- 如检索召回的文档片段或FAQ错误,可通过添加预期知识,搜索到期望检索到的知识,可将其添加为预期知识,完成快速的干预和调优;
- 如检索召回的文档片段内容缺失,可点击匹配信息,进入到文档详情,对文档分段进行调整;
- 因匹配知识点质量问题导致的文档片段或FAQ误召回,可点击匹配信息,进入到文档详情或FAQ详情中修改知识点,进行调优;
- 数据反馈:支持对检索信息点踩点赞,对于点踩信息的反馈可帮助我们后续对检索模型的优化
-
「回复生成」:即基于信息检索到的文档知识或FAQ知识,大模型基于用户可能想问总结生成的回答
- 当检索到FAQ知识时,如未开启大模型风格回复或总结回复,则直接回复FAQ的答案;
- 如开启大模型风格回复:大模型会根据设定的回复风格结合用户可能想问和FAQ答案对FAQ答案进行风格改写,然后进行生成回复;
- 如开启大模型总结回复:大模型结合用户可能想问和FAQ答案对FAQ答案总结,然后进行生成回复;
- 信息反馈:支持对生成回复点踩点赞,对于点踩信息的反馈可帮助我们后续对检索模型的优化
- 如果想要开启新的会话,点击「重置对话」按钮,会开启新的会话,当前会话将被清除