美团搜索中NER技术的探索与实践

作者:c4t2024.02.17 14:19浏览量:17

简介:在美团搜索中,实体识别技术(NER)扮演着重要的角色,它能够识别文本中的实体,如人名、地名、机构名等。本文将介绍NER技术在美团搜索中的应用背景、整体架构、实体词典匹配、离线挖掘以及在线识别率等方面的探索与实践。

在美团搜索中,实体识别技术(Named Entity Recognition,简称NER)是深度查询理解(Deep Query Understanding,简称 DQU)的底层基础信号。它能够识别文本中的实体,如人名、地名、机构名等,为搜索召回、用户意图识别、实体链接等环节提供关键信息。NER信号的质量直接影响到用户的搜索体验。

在O2O搜索中,对商家POI(Point of Interest)的描述通常包括商家名称、地址、品类等多个互相之间相关性并不高的文本域。如果对O2O搜索引擎也采用全部文本域命中求交的方式,就可能会产生大量的误召回。为了解决这一问题,我们采用了“结构化召回”的方式,让特定的查询只在特定的文本域做倒排检索,以保证召回商家的强相关性。

在美团搜索场景下,传统的NER技术仅能处理通用领域既定、既有的实体,但无法应对垂直领域所特有的实体类型。因此,我们需要通过对POI结构化信息、商户评论数据、搜索日志等独有数据进行离线挖掘,以解决领域实体识别问题。

经过离线实体库不断的丰富完善累积后,在线使用轻量级的词库匹配实体识别方式简单、高效、可控,且可以很好地覆盖头部和腰部流量。目前,基于实体库的在线NER识别率可以达到92%。

离线挖掘是解决领域实体识别问题的重要手段之一。通过对领域内结构化数据的加工处理,我们可以获得高精度的初始实体库。例如:从商户基础信息中,可以获取商户名、类目、地址、售卖商品或服务等类型实体;从猫眼文娱数据中,可以获取电影、电视剧、艺人等类型实体。

现有的新词挖掘技术主要分为无监督学习、有监督学习和远程监督学习。无监督学习通过聚类等方法对新词进行挖掘;有监督学习利用大量已标注的语料训练模型进行新词挖掘;远程监督学习则利用大规模未标注语料通过迁移学习和微调来适应特定任务。

除了传统的NER技术和离线挖掘外,我们还可以利用深度学习模型进行实体识别。例如:基于BiLSTM-CRF模型的方法可以处理序列标注任务;基于BERT的方法可以用于命名实体的语义理解和消歧。这些深度学习方法可以提高实体识别的准确率和召回率。

在实际应用中,我们还需要考虑如何处理未登录词和歧义问题。未登录词指的是在训练数据中未出现过的实体,而歧义问题则是由于一词多义或上下文语境等原因导致的实体识别错误。为了解决这些问题,我们可以采用一些启发式规则或集成学习的方法来提高实体识别的准确率。

总结来说,美团搜索中的NER技术是一个不断探索和实践的过程。通过离线挖掘和在线识别相结合的方式,我们可以提高实体识别的准确率和召回率,从而提升用户的搜索体验。未来,我们还将继续探索深度学习模型在实体识别中的应用,并不断完善和优化我们的技术方案。