MRCP助力美团语音交互升级

作者:KAKAKA2024.11.26 15:20浏览量:6

简介:本文探讨了MRCP在美团语音交互中的实践和应用,包括MRCP的定义、美团自研ASR/TTS能力、MRCP在美团的应用场景及效果,以及MRCP对美团语音交互的赋能作用。

智能语音对话作为人工智能领域的重要分支,近年来取得了显著的发展,其核心技术包括语音识别、自然语言理解、对话管理等。美团作为国内领先的生活服务电子商务平台,不断探索并实践着最前沿的语音交互技术,其中MRCP(Media Resource Control Protocol,媒体资源控制协议)作为一种关键的通信协议,在美团的语音交互系统中发挥着不可替代的作用。

MRCP的定义与背景

MRCP是一种用于语音服务器向客户端提供各种语音服务(如语音识别和语音合成)的通信协议。它定义了控制媒体处理资源所必需的请求(Request)、应答(Response)和事件(Event)等消息,并借助RTP(Real-Time Transport Protocol,实时传输协议)创建一个媒体会话,同时借助SIP(Session Initiation Protocol,会话初始化协议)和SDP(Session Description Protocol,会话描述协议)创建一个控制会话,实现媒体资源服务器端和客户端之间的控制。

在传统的语音应用中,各集成商必须针对不同的ASR/TTS厂商提供的API接口进行专门的集成开发,不同ASR/TTS引擎的接口各不相同,从而导致了集成过程的复杂性和局限性。而MRCP协议的出现,为语音和网络技术的集成提供了更加规范的解决方案。有了MRCP协议后,ASR/TTS厂商提供MRCP协议的标准统一接口,语音集成开发商们不必再针对特定的ASR/TTS进行开发,从而降低了业务开发周期和成本。

美团自研ASR/TTS能力

自2018年起,美团语音交互部持续投入语音识别(ASR)和语音合成(TTS)的自主研发,目前已形成平台级的服务能力。美团语音识别重点针对美团场景进行优化,相比通用场景的识别率更高。在电话呼叫场景的测试集中,美团语音识别的字准率达到94.6%,远超业界头部厂商的平均水平。美团语音合成从美团各场景出发,建立起从端到云一体化、全面覆盖客服、配送、听书等各个方向的合成音色群,并支持不同数据量级的语音定制化能力,性能和效果均达到业界一流水准。

MRCP在美团的应用场景及效果

在美团的语音交互系统中,MRCP被广泛应用于语音识别领域。通过MRCP协议的应用,美团实现了高效的语音识别和合成功能,为用户提供了更便捷、自然的交互方式。例如,在骑手语音助理、客服中心语音转译等多个业务场景中,美团语音交互系统已经落地应用,并取得了显著成效。美团还针对低延迟流式语音识别技术进行了深入研究和实践,进一步提升了系统的实时性和准确性。

此外,MRCP还支持目前最热门的开源语音通信平台Asterisk和FreeSWITCH,并提供了丰富的接口文档。在呼叫中心这一典型的应用场景中,智能语音服务通过MRCP协议与FreeSWITCH进行对接。用户接通电话后,智能语音服务从呼叫中心设备中实时获取声音讯号,将语音讯号转化为文本流实时输出,并将要回复的文本话术经过语音合成转化为语音讯号,交由呼叫中心进行语音播报。这一过程中,MRCP协议的应用使得调用方仅需面向MRCP接口撰写程序,而无需考虑不同语音引擎产品之间的差异,从而实现了真正的“一次开发、多种环境下应用”。

MRCP对美团语音交互的赋能作用

随着美团自研的ASR/TTS逐步达到业界一流水平,美团内部越来越多业务接入美团自研的TTS和ASR能力。特别是TTS,在应用的业务场景中取得了超越外采系统的效果。然而,在业务对接和优化过程中,也面临着一些挑战,如音色机械、音色不统一、合成延时过高等问题。通过MRCP协议的应用,美团有效地降低了业务使用、升级语音能力的成本,并平滑地提升了用户体验。例如,在业务升级替换音色过程中,采用MRCP将语音合成和识别与电话系统直接对接的方式,避免了因系统复杂性、运营疏漏等问题导致的音色不统一等体验问题。

综上所述,MRCP在美团语音交互中的实践和应用取得了显著成效。它不仅提升了美团语音交互系统的性能和效果,还降低了业务开发周期和成本。未来,随着技术的不断进步和应用的深入拓展,MRCP在语音交互领域的应用前景将更加广阔。同时,美团也将继续投入研发力量,推动语音交互技术的持续创新和发展。