运营工具
该模块为用户提供统一的会话运营工具,便于对效果和数据进行持续监控和调优。
相关名词解释
- 标注:会话标注指为用户问法匹配相应的会话类型。匹配类型包括:多轮意图、问答、闲聊。
- NLU分析:自然语言理解分析,可以实现对文本的意图、问答、闲聊、实体、态度、情感识别。
标注工具
用户通过持续的标注可以逐步提升BOT对意图、实体、问答、闲聊等知识的识别能力,从而增强知识的有效性,扩大其对业务场景的覆盖度。
为了提升标注的工作效率,标注需按照多人协同的标注任务流形式流转,即每个标注员都只能标注属于自己的标注任务,标注员提交标注任务后需等待审核员审核标注任务,审核完成后标注的动作才真正生效。
标注数据
标注数据页面的主要作用为查看数据、筛选数据、生成新的标注任务并分配给对应的标注员。
在该页面中,标注数据的来源是系统基于语义相似度与匹配内容进行分类的用户问法。匹配类型包括已匹配(多轮意图、多轮其他、问答、闲聊与澄清)、未匹配。历史标注暂不处理数据中包含的是历史标注任务中标注结果为暂不处理的数据。
此页面默认以聚合形式展示,点击问法后的"详情",可查看每个聚类后问法包含的所有原始问法。
点击"创建任务",出现创建任务弹窗,展示了用户在数据列表页进行数据筛选时选择的筛选项以及筛选后的数据条数。
在此弹窗中,可选择不同的任务类型:常规融合标注、高效意图标注、智能挖掘标注。
- 常规融合标注即对标注数据进行常规的标注动作;
- 选择高效意图标注任务后,系统会筛选出能快速提升机器人意图识别效果的数据并创建任务;
- 选择智能挖掘标注任务后,系统会筛选出符合固定的对话模式的场景数据并创建任务,目前包含多次未匹配、负向情绪和转人工三种对话模式。
最少数据量即此任务期望包含的最少标注数据,单个任务的标注数据总量不能超过两千。
选择期望标注此任务的标注员后,点击确定即可创建此任务。
点击"上传数据",可以自主上传需要标注的线下数据。上传数据需要选择一个用于匹配query的BOT,建议选择一个包含全量知识的BOT进行操作可提高标注效率,可以创建一个独立BOT包含全量数据不进行发布。
按照模板填写数据,并选择对应的bot,点击上传后系统会根据数据在此bot中的匹配情况分类在已匹配和未匹配的两个tab下。
任务管理
任务管理页面主要进行标注任务的查看和管理工作。根据是否已经分配标注员,任务被分为两种状态:已分配和未分配。
未分配的页面可以进行标注任务的分配和删除。删除后的任务其包含的任务数据会回到原来的标注数据页面供重新筛选。
已分配的页面可以查看标注任务的状态以及任务详情。如果标注员还未开始标注已经分配的任务,可重新分配此任务,或者删除任务。点击"查看详情",可查看任务的数据详情。
任务标注
此页面主要供标注员查看任务、标注任务。
未完成任务展示所有还未完成的任务,点击"查看标注",进入标注数据的界面。
选择对应的标注数据,可在右侧的标注区域对此数据进行标注操作。
标注操作说明
重新匹配:当不满意机器人的识别结果时,可选择重新匹配;重新匹配下方有属于不同知识模块的标注数据,可根据实际业务需求进行标注。
确认匹配:当机器人的识别结果符合期望时,可点击确认匹配确认机器人的识别结果。
暂不处理:当不确定用户问法应该如何标注时,可先标注暂不处理。
忽略:当用户问法为无意义的语句或者乱码文字时,可标注忽略。
任务规则
任务规则为系统自动创建任务时依照的规则。现在平台内置三种系统规则:系统任务规则1、系统任务规则2、系统任务规则3。这三种规则分别用于自动生成常规融合标注任务、高效意图标注任务、智能挖掘标注任务。系统规则仅可选择启用禁用,不可修改任务规则。
启用系统规则后,在规则对应的生效时间范围内,系统将自动按照规则生成标注任务。
除去内置的任务规则之外,平台支持自定义任务规则。点击"添加任务规则",根据需求填写标注数据的筛选项,并对此规则进行命名方便管理,在选择的有效时间范围之内,系统将自动按照此规则生成任务。
剧本管理
作为用户,在配置了一个新的BOT(场景)后或BOT进行优化调整以及BOT上线后,需要进行此BOT的不同场景case批量测试,并基于测试case制作出不同的测试剧本;通过剧本管理用户可以便捷维护bot测试剧本,同时可进行bot文本对话端到端的效果测试,提升测试效率。
创建剧本
创建剧本,指定剧本归属的BOT、绑定的渠道信息。
剧本详情,可查看剧本下的所有测试集详情,每个剧本最多可创建1000个测试集,每个测试集相当于一个会话。
创建测试集,支持3种方式进行创建【创建测试集】【录制测试集】【文件导入测试集】。
创建测试集:通过页面配置的方式进行测试集的内容的填写和维护。通过手动输入的方式去编写测试集及对应的预期结果。
录制测试集:基于对话窗口进行对话,完成测试集的生成。基于对话窗口进行测试集的录制,更加简单易用。
文件导入测试集:通过文件导入的方式进行测试集的导入。通过线下excel文档进行测试集的编写(符合导入规范),编写完成后上传即可。
测试剧本
剧本下的测试集全部编写完成后,点击剧本记录的测试,即可进行剧本的批量测试。
剧本测试区分对线上环境或测试环境的BOT进行测试,按需使用。
测试开始后,生成测试记录和测试报告。
可查看测试集的测试对话详情以及剧本的全局测试报告。
扩展问推荐
针对每个意图/问答,推荐出n条相似的意图示例/相似问,用户可按需选择,加入到意图或问答中,帮助其进行冷启动。
意图推荐
选择“意图列表”中的某个意图后,点击“添加到示例”完成意图示例添加。
问答库推荐
选择“标准问法列表”中的某个问答后,点击“添加到示例”完成相似问法添加。
NLU分析
NLU分析工具提供两个功能:对比文本相似度功能以及单文本分析功能。
1.对比文本相似度功能:
在"待分析文本"输入框中输入一段文本后,点击输入框下方的"添加对比文本",可以输入需要对比相似度的文本。点击对比分析,下方即出现两句文本之间的文本相似度。
此对比文本相似度功能主要对比的是两段文本之间的文本相似度,单次仅支持对比两段文本之间的文本相似度,如需对比多条需要重新输入并点击对比。
2.单文本分析功能:
在“待分析文本”框中输入一段文本,点击“单文本分析”按钮可查看意图、实体、问答、闲聊、态度、情感、敏感词的识别情况。
识别结果展示匹配或者识别到的对应知识条目以及置信度,可作为运营人员维护平台知识,提升机器人对话效果时的参考。
剧本测试
在完成流程片段之后,我们提供剧本测试功能,用户可以按照格式,上传对应的测试剧本,系统会根据测试剧本中的内容对当前流程片段进行测试,并输出对应的测试报告。快速发现流程片段问题。
首先在任务式会话中,找一个流程片段,点击管理进入流程片段管理界面。
然后点击右上角的剧本测试按钮,选择新建测试,上传对应的剧本,点击测试之后,即可以开始测试了。
测试结果,可以在剧本测试-剧本测试结果及任务中找到结果和下载报告。
会话记录
该模块将线上的每一轮交互进行记录,并通过session进行聚合后离线展示,支持用户在测试环境查看线上发生的对话记录。同时支持用户对产生的对话记录数据进行导出。
点击右侧对话记录列表中的“查看详情”,可查看该条对话记录的详细数据,同时支持展示每一轮对话的调试信息。
我的贡献
- 在该模块,当前登录且无审核权限的用户可对其添加的知识进行查询和修改。
- 数据来源:数据管理、标注;
- 数据类型:问答、意图、实体、闲聊、文档、不响应问;
- 编辑类型:新增、编辑、删除。
- 对于当前登录且拥有审核权限的用户可对数据进行筛选、查询、查看提审内容与审核记录。
数据统计
智能会话数据
对会话数据进行统计,并通过实时变化的图像对其进行直观的展示,展示内容包括:会话数和消息数的趋势图,响应来源分布饼状图,知识库高频意图、问答TOP10。其中,知识库高频意图、问答TOP10支持导出。
- 会话统计及对应趋势图:用户可以选择展示Agent范围或某一BOT范围的会话数据,可对时间和数据类型进行筛选
- 响应来源分布统计:用户可查看,任务式会话、问答、闲聊、澄清、未匹配及其它。
- 高频意图&问答TOP10统计:用户可查看意图及问答库中的高频知识,并可导出相关数据。
知识数据
对当前Agent下的操作数据次数以及审核情况进行统计,主要分为知识管理数据统计和标注数据统计。同时展示了知识管理的变化趋势以及个人贡献top3的账户。
切换至标注数据统计后,可查看标注数据的趋势以及标注贡献次数排序。
分类统计可查看不同数据模块的操作次数以及审核结果统计。
个人数据
对当前账户下的操作数据次数以及审核情况进行统计,主要分为知识管理数据统计和标注数据统计。
分类统计可查看当前账号在不同数据模块中的操作次数以及审核结果统计。
会话诊断
在运营阶段,为保证服务效果稳定,需要定期对知识和模型进行更新维护,以保证在用户的问法和业务范围发生变化时,机器人仍然可以为用户提供解决方案。会话诊断工具就是基于用户的会话数据和业务专家更新的知识数据,提供语义和任务式对话两个方面的诊断。基于诊断结果的分析,可以更有针对性的定向优化。
语义诊断
运营人员需要能够简单快捷的定位语义识别错误的原因,并修正优化。特别是当出现一些人为理解不应识别错误的问题时,很可能是由于示例问质量问题或语义间混淆导致。主要检测意图和问答知识,可以将意图和问答不同类型的知识点,做同类型知识点和不同类知识点间的示例问冲突比较,针对性的处理冲突数据从而达到提升模型识别效果的目的。
- 开始诊断
点击开始诊断时,会基于当前时间点Agent内全量已审核生效的意图和问答数据进行语义分析。开始诊断后会在任务中心创建一个异步任务,任务执行成功后刷新页面即可看到诊断的结果详情。为避免同时多人操作将生成的结果覆盖,开始诊断前请务必确认上一次的诊断结果可以覆盖,且同时只能有一个正在诊断中的任务执行。
-
最近一次诊断详情
- 在诊断的信息记录中,会展示最近依次诊断的操作时间、操作人和生成的混淆知识组数量。
- 诊断结果分为意图混淆、问答混淆、意图和问答混淆三类,混淆的知识会两两进行展示,一组两两混淆的知识称为『混淆知识组』。一组混淆知识组中,主要为重复或相似度比较接近的数据问法,这些问法称为『混淆数据』。
- 建议基于每组混淆数据的数量,优先选择混淆数据量大进行处理。
- 处理混淆数据
选择一组混淆知识组进入处理详情页面后,先查看下混淆数据的基本情况,对应进行相关的操作:
- 不处理本组混淆数据:两个知识点的混淆数据量少,虽有部分重复或相似数据,但也属合理情况
-
逐条处理混淆数据:两个知识点有一定量的混淆数据属于错误标注的情况,需要进行重新标注
- 中间区域为检测出的混淆数据,选中一条数据后,可以看到和当前知识点A/B的所属关系
- 重新选择知识点后,将重新分配所属关系,点击删除可以删除所属关系或忽略单条数据不进行操作
-
合并本组混淆数据:两个知识点存在大量混淆数据,且两个知识点语义也相近,可直接进行合并处理。选择合并操作后,可以导出一份合并数据文件,包含合并后知识数据,以及被合并的原知识点。使用合并数据文件,按照下方的『混淆知识组合并操作步骤』完成合并操作。
- 合并数据文件中前两个sheet为合并后的示例问/扩展问和模版数据
- 中间7个sheet记录原始被合并的两个知识点的信息
- 最后的sheet是合并操作具体说明
混淆知识组合并操作步骤
在混淆知识组处理的详情页面,下载合并数据文件后,参照以下步骤说明完成合并操作,以便避免因操作遗漏导致发布后的服务问题。
步骤1:根据知识点A和B信息,确认要合并为意图还是问答知识
步骤2:在意图或问答库管理页面下载知识导入的模版,将『合并数据文件』的对应内容拷贝至模板中
步骤3:在意图或问答库管理页面删除原知识点A/B,将合并后的新意图导入
步骤4:若删除的知识点是意图,还需要在会话流程中修改原有关联意图的知识点的节点设置,更新为新意图或做其他处理;完成修改后,重新测试流程
步骤5:找到与原知识点A/B相关的BOT,确认合并后意图相关的对话流程或合并后问答所在目录在BOT中装配是否正确,确认无误后进行整体测试,没有问题后再次发布BOT
流程诊断
该模块针对任务式会话引擎,对流程片段配置面向实际业务场景的解决效果进行统计分析。基于数据辅助,快速定位到完成率低的流程片段,有针对性地优化任务式对话的交互设计,提升对话体验,更多的解决实际业务场景的问题。
流程片段完成率定义:用户与机器人交互对话中,按照流程的某一分支能够顺利完成的占比。 支持在流程片段中自定义完成节点,当会话交互进行到该节点时,则认为流程片段为顺利完成。未设置完成节点的流程片段则认为所有交互都是没有完成的,在完成节点设置后产生的新会话数据才可用于数据统计。 在会话流程配置页面,节点的执行模块中勾选设置是否为完成节点:
流程片段转人工定义:触发转人工事件的次数。
流程片段负向情绪:经过流程片段的用户问法的负向情绪条数。
流程片段完成率、转人工、负向情绪的统计基于BOT及对应版本,流程片段的完成率需在同一个版本的时间范围内进行数据统计,因此生效时间范围的筛选页必须在同一版本内。流程片段完成率的统计分为会话维度和场景维度。
-
场景维度:
- 定义:侧重反映流程片段设计的合理性,在上面的例子中,从流程片段对应的这个场景的维度,该流程片段对应的场景量为2,完成率50%
-
计算公式:
- 流程片段A场景维度完成率=(流程片段A对应的A场景中走到完成节点的场景数量)/(流程片段A对应的A场景总数量)*100%
- 流程片段A场景维度转人工量=所有从A流程片段转人工的次数
- 流程片段A场景维度转人工率=流程片段A场景维度转人工量/流程片段A对应的A场景总数量
-
会话维度:
- 定义:侧重反映会话维度流程片段对实际业务场景的解决效果,比如一个会话中用户对同一个流程片段重复提问了2次,第一次没有顺利完成交互,第二次完成了,那么从会话的维度认为是解决了用户的问题,对应数据统计该流程片段的会话量为1,完成率100%
- 计算公式:流程片段A会话维度完成率=(经过流程片段A且A走到过完成节点的session数量)/(经过流程片段A的session总数量)*100%
在运营阶段,使用会话诊断工具对流程片段进行针对性优化时,建议重点关注【场景维度】的流程片段完成率、转人工率和负向情绪。在场景维度列表中,通过排序功能定位完成率相对较低的流程片段【查看详情】。
会话维度完成率分析详情:
- 支持用户按小时&按天查看数据趋势图(会话量、完成量、完成率)
- 同时可以查看相关会话的详情,复制会话ID在会话记录页面进行检索查看
场景维度完成率分析详情:
- 支持用户按小时&按天查看数据趋势图(场景量、完成量、完成率、转人工、负向情绪)
-
支持查看该流程片段的热度分布,以及每个节点的完成情况,针对其中完成情况较低的节点进行进一步的数据分析和配置优化
- 热度示例:在节点通过颜色区分,颜色越深代表热度越高
- 节点完成情况:每个节点被执行则为流量入口数据,完成后则为流量出口数据。其中流量出口数据,如果不是该节点的后续节点的话应重点关注,如被统计为【会话结束】的节点,说明没有顺利完成该节点的执行
- 同时也可以根据节点名或者标签来搜索目标节点,同时也可以根据流入流出量、完成量、转人工量、负向情绪等维度来查找和重点关注某些节点,快速发现问题节点。
基于场景维度完成率的情况以及流量分布,可以快速定位到有问题的节点进行优化:
- 按节点导出未完成的会话详情,进行数据标注,并对识别错误的问题进行优化
- 按节点打开实体富集操作页面,针对流失多或兜底的节点查看query针对性富集未能正常识别的实体信息
操作日志
操作日志是对用户的“增”、“删”、“改”等操作进行真实记录,以便发现用户异常操作,追溯操作源头,实现“追责”。另外,可方便用户对数据进行记录、统计,满足其不同维度的报表需求。同时操作日志可展示数据的生命周期,用户可查看数据自创建或导入开始的全部生命周期。
名词解释
- 操作模块:对应系统左侧菜单栏,表示系统中现有的主要功能模块,划分模块也可方便用户在查询操作日志时的定位。
- 操作动作:指的是用户的增删改等会对系统数据带来影响的操作。
- 操作对象:用户进入模块后,所做的动作针对的具体对象,操作模块与操作对象是一对一或一对多的关系。
- 操作来源:“默认”为进行某项操作的常规页面。“扩展问推荐”指的是在扩展问推荐模块对问答进行修改,如“添加问答相似问”。“标注”指的是在标注模块对其它模块的内容进行修改。
若接入客户的第三方系统,则在操作来源处展示“第三方系统”。
展示页面
操作日志以列表的形式展示操作记录,列表内容包括操作的几要素:操作人、操作模块、操作对象、操作动作、时间、操作来源、查看详情。可清晰展示:“某人”在“某时间”于“某个操作模块”对“某个操作对象”做了“某个操作动作”,并对系统数据产生了影响。
筛选项
可通过时间选择和搜索查找满足条件的操作日志,点击更多筛选,可针对列表中所展示的几要素从多角度多维度进行筛选。
查看详情
列表中可简要清晰地展示操作日志,若想查看某一条记录的详细信息,可点击“操作”下的“查看”。
查看详情弹窗中展示:用户基本信息、具体的操作内容及数据流。数据流展示流数据从产生到最后一次针对此数据的操作过程中所有的操作动作,也即展示了一条数据完整的生命周期。