简介:本文以商家经营和风险防控为例,介绍了在企业数字化中的图谱应用。
企业在数字化过程中积累了海量的数据。企业需要不断地为用户创造价值,同时实现高效的经营管理和风险控制,这对企业的数字化基建提出了很高的要求,也为知识图谱(Knowledge Graph,KG)、大语言模型(Large Language Model,LLM)等AI 技术提供了多样化的落地场景。
OpenSPG Github:https://github.com/OpenSPG/openspg ,欢迎 Star 关注我们~
本文以商家经营和风险防控为例,介绍了在企业数字化中的图谱应用。特别强调了因为中小商户、沉睡户等薄数据客群的画像覆盖和风险洞察而对深度上下文(deep context) 感知的要求,企业级知识管理正在实现从二元静态向多元动态的模式跃迁。结合当前产业应用和研究进展,本文梳理总结了LLM、KG 在企业数字化中的可能应用。
我们指出,LLM 因存在幻觉问题而使应用受到限制,KG 则因为具有结构化知识的表达能力、可解释性和较高的计算效率,在推理挖掘、线索洞察、分析查询等方面具有广泛应用。同时,LLM 和KG 的双重驱动因两者能力的互补性,空间巨大,在语言理解和交互类应用中也被预测为LLM产业化落地的关键路径。在此基础上,本文进一步阐述知识图谱技术当前面临的挑战,并结合蚂蚁集团知识图谱平台实践,介绍OpenKG 合作共建的工业级语义增强框架SPG( Semantic-enhanced Programmable Graph)及知识图谱引擎。
知识图谱(Knowledge Graph,KG)是一种建模和管理数据的方法,它利用图结构、知识语义和逻辑依赖,提供存储、推理和查询事实知识的能力。早期的应用主要是从公开语料中提取百科类<s, p, o> 三元组来构建静态知识图谱,以提高搜索推荐的效率和体验。
自2018 年以来,企业数字化垂直领域的图谱应用越来越广泛,如金融、医疗、公安和能源等领域[1, 2]。艾瑞咨询的一份报告[3] 显示,预计到2026 年,中国图谱市场空间将达到290 亿元,其中金融和公安是主要的拉动力量。由于领域图谱需要具备全面性、正确性和可解释性等特点,图谱数据的来源也从文本语料转向了企业多源异构数据。这些数据包括非/ 半结构化的用户生产内容/ 专业生产内容(UGC/PGC)、业务经营沉淀的结构化基础画像、交易事务、日志记录等,以及各领域特有的业务专家经验。围绕经营增长和风险防控,构建完整的客户、物料、渠道等的立体画像,图1 展示了商家实体的构建过程。
图1 商家实体构建的过程
当前,商家已经突破了静态门店的限制,收款码让任何人都可以成为商家,同时也增加了风险防控的难度。仅通过文本概念标签进行风险防控是没有意义的,添加交易、社交等实际事实关系也远远不够。如图2 所示,需要实体多要素的深度信息协同才能发现更多有效的关联。
图谱构建的要求也从静态常识转向深度上下文动态时空。这既需要基于介质(如Wi-Fi、电话、Email 等)实现关系传导, 又需要对地理连续空间(Spatial)实现边界化的聚集关联[4],还需要跟踪中/ 宏/ 微观事件的多元传导脉络,实现实体间稀疏关系语义可解释的稠密化。
图2 深度上下文语义扩展的基础事实图谱
在业务应用方面,知识图谱可以用于构建知识推理任务,例如
eKYB(electronic Know Your Business):通过介质关联、行为事件和时空聚集,识别商户同人、同店等,实现有效的画像补全和风险洞察。
此外,基于知识图谱还可以实现结构感知的可控文本生成[5],例如:
反洗钱智能审理识别定性和报文生成:结合深度上下文预测风险行为、挖掘团伙,通过资金链、时空聚集、设备关联等还原团伙/ 异常结构,并通过知识图谱到文本的转换,输出可解释报文;
在商户经营与风险防控的案例中,知识管理需要具备较强的上下文感知能力。常见的常识知识图谱卸掉了可感知上下文的信息和时空关联,在实际应用中,如果论元要素出现了多元化或相互交织, 由于无法感知个体差异,仅使用概念层归纳,推理应用的效果会大打折扣[6]。类似的问题也出现在公安反诈、保险理赔、医疗问诊、企业授信等领域。因此,企业垂直领域对知识图谱的期望发生了较大变化。知识表示也从图3 所示的二元静态结构发展到时空多元动态关联,以更好地适应实际应用的要求。
图3 知识表示从二元到多元的演进
2022 年底,ChatGPT 火爆全球,随后国内也掀起百“模”大战。然而,由于LLM是一种黑箱概率模型[7],难以捕获事实知识,因此存在较多幻觉和逻辑错误[8]。与此同时,知识图谱的事实性、时效性和逻辑严谨性成为了LLM 的绝佳能力补充。通过将知识图谱作为约束和复杂推理能力的来源, LLM+KG 的应用范式引起了研究者的广泛关注,并催生了许多应用探索和研究[7, 8]。
在各种应用场景中,以商户经营与风控为例,算法任务可以分为以下五个方面。
表1 LLM和KG在企业数字化不同场景下的应用
总体而言,以商户经营与风控应用场景为例,LLM 和KG 应用的算法任务主要可以分为三类。
图4 大模型与知识图谱的相互驱动
知识图谱自身技术框架的发展和人们对它在新知识数据管理范式、大模型双轮驱动的期待并不完全匹配,因此图谱技术的发展也需要与时俱进。首先,缺少统一的工业级知识建模框架。强语义、弱结构的资源描述框架/Web 本体语言(RDF/OWL)发展多年并未出现成功的企业级/ 商业化应用,而强结构、弱语义的带标签属性图(Labeled Property Graph,LPG)却是企业级应用的首选。其次,缺少统一的技术框架[2],导致跨领域迁移性差。由于工具繁多、链路复杂,每个领域图谱构建都要从零开始。除这两点外, 其他方面也存在较大技术挑战,如表2 所列。
表2 新范式下图谱面临的技术挑战
知识图谱的目标是构建一个机器可理解、可推理的数字世界,实现知识语义的统一表示和框架化能力分层,以支持不同领域图谱的快速构建和跨场景迁移。这是图谱产业化加速过程中必须解决的基本核心问题。
蚂蚁知识图谱平台支撑了多年的金融领域业务, 积累并打造了基于属性图的语义框架SPG。该框架创造性地融合了LPG 结构性与RDF 语义性,既克服了RDF/OWL 语义复杂无法在工业场景落地的问题, 又充分发挥了LPG 结构简单与大数据体系兼容的优势。如图5 所示,该平台通过以下三个维度来定义和表示知识。
图5 SPG知识语义框架
以SPG 为基础构建的知识引擎框架,不仅可以在图谱构建阶段衔接大数据架构,实现数据到知识的转换,而且可以在存储阶段适配到属性图,充分发挥其存储和计算能力。在推理应用阶段,该框架可以形式化成知识图谱领域特定语言(Knowledge Graph Domain Specific Language,KGDSL)这种机器可理解的符号表示,支持下游规则推理、神经/ 符号融合学习、KG2Prompt 联动LLM 知识抽取/ 知识推理等。同时,通过该框架的分层架构,新的领域图谱构建只需定义Schema、准备数据、开发生产/ 推理Operator 即可。这为构建高效、灵活、可扩展的知识图谱应用提供了可编程的范式。
知识图谱技术目前仍处于快速发展时期,也是关键的技术拐点期。建立统一的技术框架能够大幅降低应用门槛,促进生态繁荣。为此,我们正在与OpenKG 合作,加速推出基于SPG 的语义表示和引擎框架。我们将于2023年8月底推出SPG 语义框架白皮书v1.0, 欢迎大家下载和交流。
王昊奋:CCF 高级会员,CCF 上海分部秘书长、CCF SIGKG 主席、术语工委副主任。同济大学百人计划特聘研究员,博士生导师。主要研究方向为知识图谱、自然语言处理。联系方式:carter.whfcarter@gmail.com
梁 磊:CCF 专业会员,蚂蚁知识引擎负责人。个人主要研究方向为知识图谱、图学习与推理引擎、AI工程、搜索引擎等。联系方式:leywar.liang@antgroup.com
[1] Martin S, Szekely B, Allemang D. The Rise of the Knowledge Graph[R]. O’ Reilly, 2021.
[2] 王昊奋, 丁军, 胡芳槐, 等. 大规模企业级知识图谱实践综述[J]. 计算机工程, 2020, 46(7): 13.
[3] 艾瑞咨询. 中国知识图谱行业研究报告 [OL].(2022-08- 12). 2022年中国知识图谱行业研究报告人工智能艾瑞网.
[4] 陆锋, 诸云强, 张雪英. 时空知识图谱研究进展与展望[J]. 地球信息科学学报, 2023, 25(6):1091-1105.
[5] Anthony C, Alvandipour M, Wang D Z. GAP: A Graph-aware Language Model Framework for Knowledge Graph-to-Text Generation[OL]. (2022-04-13). https:// arxiv.org/pdf/2204.06674.pdf.
[6] 白硕. 事理图谱六问六答 [ O L ] . 理深科技时评. (2019-07-28). h t tps://mp.weixi n.q q.com/s/ p1h4jhL0esfYi3dOlC9Iwg.
[7] Yang L, Chen H, Li Z, et al. ChatGPT is not Enough: Enhancing Large Language Models with Knowledge Graphs for Fact-aware Language Modeling[OL]. (2023-06-20). arXiv preprint arXiv:2306.11489.
[8] Pan S, Luo L, Wang Y, et al. Unifying Large Language Models and Knowledge Graphs: A Roadmap[OL]. (2023-06-14). arXiv preprint arXiv:2306.08302.
[9] 王昊奋, 王萌. “神经+符号”:从知识图谱角度看认知推理的发展[J]. 中国计算机学会通讯, 2020, 16(8), 52-56.