表格问答
表格问答定义
在智能客服的对话能力中,表格问答的诞生是为了更好更高效的利用有价值表格数据,只需要业务人员通过梳理与维护表格,就可以支持用户询问表格的相关问题。
抽象的说是建立起非结构化自然语言和结构化机器语言间的纽带。在客服场景的运用中,表格问答是一种由人类自然语言发起问题,结合表格数据生成答案的过程。可理解成,输入一个表格集合T(包含一个或多个表格)和一个自然语言形式的问题Q,即可输出正确的答案A。
概念介绍
- 类目:多张用于描述相同场景的表格组成一个类目,通过类目对表格进行分场景的管理;
- 表格名称:用于记录属性,属性名称,实体和实体值信息的载体,例如车辆;
- 表格别名:针对表格名称的另一些常见表达,例如车,汽车;
- 实体:一些表格名称具像化,例如途胜,帕萨特;
- 属性名称:表格实体拥有的特征,例如价格,国别;
- 属性值:属性名称对应实体的内容;
- 同义词:属性名称一些更通用的表达,口语化的表达;
- 关键词:表格名、实体值、属性值、属性名均为关键词,均支持编辑同义词扩大召回;
- 关键词别名:关键词别名更加口语化的名称。
应用场景
表格问答在客服场景能够:
- 辅助客户构建细粒度结构化的知识体系;
- 解决复杂的业务场景咨询问题;
- 在整个智能客服的对话服务中提供结构化知识咨询服务。
与非结构化的数据相比,表格数据这种结构化数据更加适合作为查询、计算、推理等场景的知识运用。
表格知识管理
表格知识管理由表格管理和词表管理两部分组成。
表格管理
表格问答的中的表格管理的页面由三个内容组成,分别是类目列表,表格的管理和表格问答不响应问。
类目列表
在类目的列表中,可以通过点击“添加类目”新建类目;类目也支持编辑名称和描述以及删除。在正确的类目(场景)下,创建对应的该类目的表格,填写表格的中文名称,英文名称,表格别名和描述。点击添加表格右侧的向下的按键,可以通过Excel表格格式文件的数据导入。
note: 一个BOT最多只支持绑定5个类目,每个类目最多可以存在10个表格。
表格的管理
在正确的类目(场景)下,创建对应的该类目的表格,填写表格的中文名称,英文名称,表格别名和描述。
点击添加表格右侧的向下的按键,可以通过Excel表格格式文件的数据导入。
在表格知识管理页面点击删除可以删除该表格;点击导出按钮,将该表格的内容导出(包括表格基本信息,表格数据,属性信息和运用在该表格的关键词与关键词别名)
在表格知识管理页面点击“管理”按钮后,进入表格详情页面。下图是对表格基本信息的的编辑,包括中文名称,英文名称,表格别名和描述。
其中,以表格为基本单位的高级设置,目前有两个功能:
- 限制回复内容数量:针对用户表述中存在仅单实体,单属性+表格名称,表格名称等缺省关键元素的query,避免由于表格知识过多,导致回复信息过多淹没有用信息,提供用户编辑『限制回复实体数量』与『限制回复属性数量』的限制,已支持回复内容符合特定场景的预期。
- 模糊词识别:支持用户表述中左右,大约,上下等表述的识别,以表格场景为单位,支持用户对数值类型属性模糊区间进行限制,比如:+-10%。
在表格知识管理页面点击“管理”按钮后,进入表格详情页面。
表格数据
- 在表格数据分栏,可以点击“添加表格数据”按钮,可增加表格中的数据。
- 对表格数据进行了简单的统计,其中包括属性与表格行数的统计。
- 支持对表格实体进行模糊的查询。
- 设置回复范围,由设置属性优先级,设置实体优先级两个功能。该功能主要作用是调节回复答案的顺序,以支持回复内容是符合任务预期的。
- 用户可以使用自定义列选择想要在管理端展示的表格属性列,使得整体展示更加的灵活。
- 点击表格右侧的“编辑”按钮可以编辑该行每个属性的属性值。
- 删除按钮则是删除整行的属性值,并不影响属性。
属性管理
- 可以在属性管理分栏,点击“增加属性”按钮,以添加新的属性;
- 支持对属性名称进行模糊的查询;
-
在属性管理中,可以支持对属性名称、属性英文名、同义词、自定义回复话术、属性类型、是否多值等的配置
- 属性名称、属性英文名:可以根据业务对属性进行命中,支持中文、英文、符号、数字;
- 同义词:属性名称的更口语化的说法;
-
属性类型:有字符串、数字、布尔、日期、父级属性、枚举6种类型支持选择;
- 父级属性运用于属性与属性之间存在从属关系,比如运营商,套餐属性包含价格、流量、话费等等属性。用户可以通过设置属性的层级,即可实现,复合属性的回复。
- 枚举支持一些『类枚举类型』属性的数据,比如,汽车行业配件的值『标配』『选配』『无』,标配与选配为『是』逻辑,无为『否』逻辑,可实现问 有 A 配件的汽车,可以返回所有标配与选配的汽车。
- 是否多值:需判断该属性是否存在多个属性值的情况。
- 基础单位:该属性属于哪一类型的基础单位;如,价格的基础单位是元;
- 缺省单位:用户在表述时,可能存在对单位的缺省,缺省时算法自动填充的单位;如,价格30左右的车?此处缺省单位为万元;
- 回复单位:在将涉及属性的回复时,会带上此设定的回复单位
在属性单位页面点击单位管理,可对业务场景中常见的单位信息进行配置;
- 基础单位:常见的基础单位,如:元、千克、秒等
- 转换单位:用户高频表述的词语,如:万元、克等
- 转换逻辑:1 基础单位:1转换单位= 转换逻辑(数值);如,1 元:1万元=0.0001
关键词管理
- 对关键词添加对应关键词别名能够支持用户进行自定义的泛化表格问答中知识的能力。
- 点击添加关键词,填写关键词与关键词别名后,即可在词库管理中新增关键词信息;
- 支持对每一个关键词以及对应的关键词信息进行修改与删除;
表格模板
此功能主要解决用户表述中长难句(其中有过多的无用信息)识别难问题,提供用户针对句式填写模板的手段,使得可以快速批量干预回复结果。对于一些复杂长难句,由于无用的背景信息过多,导致整体query的置信度整体较低,表格问答无法得出准确的回复。例如:
- 我是你们东航白金卡,我想问一下我从悉尼回来可以免费升舱;
- 我有一个金卡可以享受升舱服务,但是柜员说需要打电话咨询;
在表格知识管理-表格详情的表格模板页面中,用户可选择对应生效的句式,增加模板。
以下为表格问答句式分类介绍,用户可以根据句式增加对应的模板,生效句式仅作为辅助用户填写模版的工具,没有严格校验。
句式 | 含义 | 例子 |
---|---|---|
实体 | 仅询问实体具体信息 | 帕萨特 |
实体+属性 | 询问实体的属性 | 帕萨特的价格 |
表格名称 | 询问所有实体 | 汽车 |
属性+属性值+表格名称 | 询问属性满足某些条件的实体 | 价格大于10万的汽车 |
计算类型 | 询问涉及计算类型 | 大众车的平均价格 |
其他 | 其他问法 |
表格问答新增模板语法介绍:定义[%XXX]格式,为表格问答槽位名符号
用户配置 | 解释 | 语法 |
---|---|---|
[%该表格的实体] | 实体 | [%S_name] |
[%该表格的属性] | 属性 | [%P_price],[%P_properties] |
[%该表格名称] | 表格名称 | [%T_tablename] |
[%该表格属性的属性值] | 表格属性值 | [%O_price],[%O_properties](all) |
[%表格聚合函数] | 表格聚合函数 | [%F_max] max、min、avg、sum、count |
[%表格排序] 包括 | 升序降序 | [%R_rank] |
[%差值槽位(中间)],[%差值槽位(结尾)] | 差值计算 | [%SUB_compare],[%SUB_diff] |
表格问答专属『提取』符号 在句式在匹配到对应的模板后,用户对于需要提取的内容使用英文圆括号进行圈定使用限制:
- 抽取符号中间只能出现5种符号:文字、$词库、@实体、%实体、|
-
在使用|符号时:只能搭配 文字、$词库、@实体、%实体 中的一种,例如:
- 合法的:[(是|为|等于)]、[(@nation1|@nation2)]、[($nation1|$nation2)]、[(%P_nation1|%P_nation2)]
- 不合法的:[(是|@nation1)]、[(%nation1|@nation1)]
为了用户更好的使用体验,将上述表格问答复杂的语法使用『可用元素』标签替换;可在文本框中输入符合规范语法与该句式下可用的元素,构建完模板后保存即可。
回复话术管理
在表格问答-表格详情-回复话术管理中,可以根据生效句式,针对对应的句式添加回复话术。 生效句式类型说明:
名称 | 句式 | 例句 |
---|---|---|
实体查询 | 实体 | 帕萨特 |
属性查询 | 实体+属性句式 属性+表格名称句式 |
帕萨特的价格 汽车的价格 |
明确范围查询 | 句式条件是确定 | 价格是2999900元的汽车 |
范围区间查询 | 句式条件是一个范围区间 | 价格大于500000元左右的汽车 |
实体查询
- 生效限制条件:若是需要query包含以下所有信息,请选择『以下全部条件』;若只是存在以下条件的一种,请选择『以下任意条件』
- 判断符:可以选择『等于』或者『全部』(选择全部,则为对任意实体生效)
- 限定词:对应用户希望生效的实体名称
- 自定义回复话术:可以为纯文本,富文本,也可以为原先表格问答支持的话术模板
属性查询
- 生效限制条件:若是需要query包含以下所有条件,请选择『以下全部条件』;若只是存在以下条件的一种,请选择『以下任意条件』
- 判断符:可以选择『等于』
- 限定词:对应用户希望生效的属性或者实体
- 自定义回复话术:可以为纯文本,富文本,也可以为原先表格问答支持的话术模板
明确范围查询
- 生效限制条件:若是需要query包含以下所有条件,请选择『以下全部条件』;若只是存在以下条件的一种,请选择『以下任意条件』
- 判断符:可以选择『等于』
- 限定词:对应用户希望生效的属性或者实体
- 自定义回复话术:可以为纯文本,富文本,也可以为原先表格问答支持的话术模板
范围区间查询
- 生效限制条件:若是需要query包含以下所有条件,请选择『以下全部条件』;若只是存在以下条件的一种,请选择『以下任意条件』
- 判断符:可以选择『等于』,『全部』(选择全部,则为对任意实体生效)或者『范围描述词』(大于、小于、等于)
- 限定词:对应用户希望生效的属性或者实体
- 自定义回复话术:可以为纯文本,富文本,也可以为原先表格问答支持的话术模板
实体管理
适用范围 实体且为专业词(多部分,多组合),例如:天添盈增利一号-->天添盈一号,增利天添盈一号
概念介绍
- 核心词:可以明确该表述为实体的词,比如A200 or 天添盈
- 部分词:用来缩小返回查询到实体范围的词,必须是实体中的完整存在的一部分,若不存在可配置到部分词的同义词中,比如运动版 or 一号
新概念与原概念的边界描述
原概念
- 实体
-
实体同义词
- 【扩大召回】实体口语化 or 通用表达
- 【模糊表述的澄清】触发澄清
新概念
-
取消实体同义词概念,将同义词下降到核心词与部分词的维度
- 核心词(可以明确该表述为实体的词):核心词的同义词可添加至核心词
- 部分词(用来缩小返回查询到实体范围的词):允许部分词有多个;部分词同义词同样可以添加在部分词中
澄清
- 核心词+部分词/核心词 不唯一:澄清
举例说明:汽车行业
-
原概念
- 实体:A 180 L 运动轿车
- 实体同义词:A 180|A 180 L|A 180 L轿车|A 180 L运动轿车|A 180轿车|A 180运动轿车|A180|A180L|A180L运动轿车|A180轿车|A180运动轿车
-
新概念
- 核心词:A180
- 核心词同义词:-
- 部分词:A,部分词同义词:A级
- 部分词:L,部分词同义词:长轴距
- 部分词:运动轿车,部分词同义词:运动|运动版|运动款|运动型
注意,这里的部分词都是在实体中完整存在的。
产品使用
原则:
- 设置表格中标准的实体数据,请在『表格数据』中编辑
- 优化实体效果,请在『实体管理』中编辑
1、新建实体泛化
- 实体名称:请选择想要优化泛化效果的实体名称
- 核心词:可将用户表述中明确为实体的词加入核心词;
- 核心词同义词:该核心词可能存在的同义词,可添加多个
- 部分词:可将用户表述修饰核心词的词,主要用于缩小查询到实体范围
- 部分词同义词:该部分词词可能存在的同义词,可添加多个
2、生效
需重新触发模型训练后生效
3、Excel 文件
可在『entity』sheet页富集实体管理功能数据
核心词列
- 中竖线前的第一个词为核心词
- 第一个中竖线后的词为核心词同义词,词以中竖线(|)分隔符隔开
-
校验
- 实体名称中存在的不存在的实体,导入失败
- 若实体的核心词和部分词为空,导入失败
部分词列
- 使用两个中竖线作为部分词的分界线
- 一个部分词内部使用一个中竖线作为分割,第一个中竖线前的词为部分词,剩余词为部分词同义词
-
校验:
- 支持类型:中文、英文、数字、符号
- 部分词个数限制:20个/一个核心词
- 部分词同义词个数限制:20个/一个部分词
- 词内部不允许重复
关键词泛化黑名单
适用场景
- 目标:解决关键词过度泛化的问题
- 作用:将该词添加至泛化黑名单,对应关键词不进行泛化
-
范围:关键词范围为实体、属性、属性值、表格名称
- 举例:case1:奔驰最近有什么电商活动吗?
- 电商-->经销商
- 奔驰-->上海星翰汽车维修有限公司
『上海星翰汽车维修有限公司』加入泛化黑名单后,奔驰无法匹配到上海星翰汽车维修有限公司;『经销商』加入泛化黑名单后,电商无法匹配到经销商。
产品使用
- 处理逻辑:放在此名单中的词,不会进行词级别泛化
- 生效范围:类目
- 填写范围:表格的全量数据(包括表格的同义词)
-
黑名单名称:
- 支持类型:中文、英文、数字、符号
- 长度:1-120个字
- 校验:非空,长度校验
Excel文件
- 每个词为一行,按上述规范添加
表格不响应问
用户可以通过将不希望进入表格问答引擎的询问添加至表格不响应问;添加后可进行编辑和删除。 为了方便用户的批量操作,表格不响应问支持导入导出功能。
词表管理
将表格问答内置全量词槽内容开放于用户干预,用户可以根据自身业务中,各具特色不同场景的表述进行优化表格问答识别的效果,提高句式高精度识别;
在表格知识管理-词表管理页面,可以支持产品端的管理,包括了计算词与限定词两大类,其中
计算词
- 最值正向词:最值中表示正向的词,例如:最大,最贵等
- 最值负向词:最值中表示负向的词,例如:最小,最少等
- 平均词:表述计算平均值含义的词,例如:平均等
- 求和词:表述计算求和含义的词,例如:总,总共等
- 求数词:表述计算求数含义的词,例如:总数,总量等
- 差值计算中间词:差值计算中处于两个实体中间的词,示例:和,比,相比等
- 差值计算末尾词:差值计算中处于最后的词,示例:差多少,贵多少等;差值计算中希望话术生成阶段会被使用到的词,若差值结果为负数选择##前面的词,正数##选择后面的词,例如,帕萨特比哈弗H6贵154900
限定词
- 比较词前缀:比较含义的词,用于数值类型前,使用中竖线将操作符与词隔,例如:小于|<,大于|>等
- 比较词后缀:比较含义的词,用于数值类型后,使用中竖线将操作符与词隔开,例如:以上|>,以下|<等
- 模糊词前缀:用于表示模糊含义的词,用于数值前,例如:大概,也许等
- 模糊词后缀:用于表示模糊含义的词,用于数值后,例如:左右,上下等
表格模型管理
在表格模型管理页面,表格模型以类目(场景)进行分类。同一类目下同一时刻仅允许一个训练任务;一个agent内可以允许多个类目并发训练。
选择现在有的类目,用户可以通过点击“模型训练”的按钮,新建模型并进行模型训练。
等待模型训练成功后,可以通过“生效到测试环境”将模型生效到测试环境。待模型在测试环境中通过了用户的测试后,用户可点击“生效到正式环境”,将模型生效到正式环境,在正式环境中提供服务。
测试环境与正式环境都只能同时在一个模型生效。每个类目最多维护30个历史版本的模型。
表格测试集管理
相关名词澄清
- 『问题集』:用户提供的query合集
- 『预测试集』:提供人工标注的材料
- 『测试集』:正式通常意义理解的测试集,包含人工标注的答案与query
表格预测试集管理:使用模型能力,生成query对应模型认为的正确答复,人工只需核对即可生成测试集。
表格测试集管理:上传测试集后,可选择对应想要测试的模型,生成最后的评测结果。
表格调优管理
缺省澄清:针对用户习惯性的缺省表达,导致关键信息的缺失,支持对缺省内容的自动填充或者澄清,给出正确回复。
- 表名澄清
在表格调优管理页面中,选中缺省生效范围为『类目』级别,在管理中可以选择用户的query在缺省表名时,需要填充或者澄清的内容。
Step1:选中缺省生效范围
Step2:选择用户query中出现表名缺省时,可能会是哪些表名
Step3:保存,如果选择的一个表名,在问答时直接将内容填充回复;若为多个候选表名,则触发澄清
- 属性澄清
在表格调优管理页面中,选中缺省生效范围为『表格』级别,在管理中可以选择用户的query在缺省数值/日期类型属性时,需要填充或者澄清的内容。
Step1:选中缺省生效范围
Step2:选择用户query中出现属性名称缺省时,可能会是哪些属性
Step3:保存,如果选择的一个属性,在问答时直接将内容填充回复;若为多个候选属性,则触发澄清
- 表格问答缺省澄清-回复话术配置
在会话BOT-BOT管理中,选择配置表格问答缺省澄清,可选择在文本对话或者语音对话中澄清的话术
可视化管理
由于全量知识过多,目前已自动展示核心知识;若对展示数据量有调整,可以联系项目交付技术同学调整。建议保持现有展示数据量,过多的数据容易造成卡顿以及页面渲染失败。
层级一:对话全量结构化知识
层级进入入口:
- 首次进入可视化管理页面
- 不进行层级筛选
层级二:类目级别知识
层级进入入口:
- 选择对应类目即可展示对应类目知识
光标放置感兴趣知识,可高亮展示知识上下层级;如图所示,展示属性值的类目、表名、实体、属性知识。
层级三:表格级别知识
层级进入入口:
- 选择对应类目下的表格,即可展示对应表格知识
层级四:实体级别知识
层级进入入口:
- 选择对应类目下的表格后,搜索对应的实体,即可展示实体知识
针对类目、 表格、实体,点击后右侧会展示对应节点的相关信息
支持句式
- 基于表格查实体:有什么汽车推荐?
- 基于表格查属性:汽车的价格是多少?
- 基于单个实体查所有属性:帕萨特
- 基于单个实体查单个属性:帕萨特的价格多少?
- 基于单个实体查多个属性:哈弗H6的价格和级别?
- 基于多个实体查多个属性:哈弗H6和帕萨特的价格和座位数?
- 基于属性查实体:国五的汽车有哪些?价格大于100万的汽车有哪些?
- 基于属性查表格实体的其它属性:国五汽车的价格是多少?
- 基于数字型属性的最值计算:哪款汽车的价格最高?汽车最多有几个座位?
- 基于数字型属性的平均值计算:所以汽车的平均价格是多少?
- 基于数字型属性的求和计算:所有汽车的价格总和是多少?
- 基于数字型属性的计数计算:一共有多少种的汽车?汽车的总数?
- 基于数字型属性的排序计算:国五汽车的价格排名前2的汽车是?大众起支持价格从大到小排序?
- 基于数字型属性的差值计算:帕萨特比哈弗H6价格差多少?德系的汽车比大众的汽车的平均价格贵多少?
- 基于实体之间的比较:帕萨特和哈弗H6有什么不同?帕萨特比哈弗H6价格哪个更贵?