AI手语主播 让无声的世界胜有声

百度智能云曦灵打造的AI手语主播,已经为2700万听障用户提供直播及赛事的手语服务;首个文博虚拟宣推官“文夭夭”持证上岗,将为各大博物馆提供讲解、导览、直播等服务。

项目背景

“手语老师终于不需再为朱广权老师的段子难受了。”这是一位网友在看完“朱广权大战AI手语老师”视频后留下的评语。
2021年11月24日,由央视新闻与百度智能云曦灵联合打造的首个AI手语主播正式上线。在今年北京冬奥会开幕日,这位AI手语主播在登上冬奥主播台前,先与朱广权来了一段“热身”。虽然朱广权妙语如珠,但AI手语主播仍以流畅、精准、与语音同步的动作完美地接住了挑战。

随后在整个冬奥会赛期,从场内运动员夺冠,到场外幕后花絮,AI手语主播都展现了很强的业务能力。目前,她已经播报了超过200条的新闻资讯,进行了数场直播,总观看次数超过1亿次,给众多听障群体带来了北京冬奥会的感动。

而在AI手语数字人的“养成”背后,还有一段为期2个月的幕后故事也不失精彩。

解决方案

手语数字人,无声胜有声

很多听障人士心里,都特别渴望和健听人沟通与交流。但在医院、银行、警局、车站、机场等各种场合,听障群体在出行与沟通上面临各种困难,原因之一就在于听障群体与健听人之间言语不通。

听障群体在我国并非少数。公开资料显示,目前我国听障人士达2780万以上,占到全球听障人口的39%。然而我国专业的手语翻译却不足1万人。在美日等国,手语翻译人员与听障用户的比例是1:100,我国是1:2780。

我国曾于2021年10-11月间相继出台了《广播电视和网络视听十四五科学发展规划》和《无障碍环境建设十四五实施方案》,提出要通过人工智能等来创造更好的无障碍设施和环境。这给听障人群带来了政策红利,也给有志于通过技术创新来服务听障人群的责任企业带来了政策指引。

在此背景下,由央视新闻与百度智能云曦灵联手打造的首个AI手语主播诞生,在北京冬奥会正式上岗。
初次见面,包括听障群体在内的大众就发现,这位AI手语主播气质知性,高度还原了真人发肤,容易让人产生亲近感。此外在北京冬奥会期间,她成功经受住了国际舞台的历练,以流畅、精准、与语音同步的动作完美地服务了千万听障群体。

不少听障朋友表示,因为AI手语主播的助力, 3亿人的冰雪运动,自己不再缺席。

手语数字人,简练不简单

“得知能参与到AI手语数字人的手语语料标注,参与冬奥会,学生们都很高兴。最后吸引了将近20所聋人学校的5、600名学生共同进行数据标注。”

回忆当初接到百度要在2个月内一同打造AI手语数字人的需求,天津理工大学聋人工学院的师生仍然记忆犹新。

百度智能云曦灵请来听障师生协助,背后原因在于“手语”是一种小众语言,想做好手语数字人,存在着“三重难”。

一是手语与汉语本质不同,前者是视觉语言,后者是听觉语言,这导致两种语言在表达时语序不一样。比如汉语一般是“主谓宾”顺序,而手语是谓语后置,变成“主宾谓”,且由于手语词汇量不多,所以手语输出时需提炼关键词。两种语言在翻译时,从语序到词汇都需转换。

二是手语是小语种语言。数据量有限,算法难有足够素材来进行自学习和优化。

三是要表达好手语,除手势之外,还需叠加口型与肢体语言,才能构成融合的多信道的完整表达。

面对这三重难,由一群理工耿直boy组成的百度智能云曦灵团队,“明知山有虎,偏向虎山行”,梳理了要攻克的三层逻辑关卡。

首先是最底层,需把健听人说的语音翻译成汉语文本;其次是中层,需将汉语文本通过翻译引擎转换为手语码;最后是上层,通过数字人的动作融合算法,将手语码转换为手语。

然后针对每一道关卡,百度智能云团队又提出了各自需突破的目标。

第一道关卡要“听得清”;第二道关卡要“会翻译”;第三道关卡要“会表达”。

百度智能云打的并非“无准备之仗”。自2010年以来,百度在语音、视觉、NLP、知识图谱等核心技术已完成相当积累,技术处于世界一流水平,也是国内唯一一家拥有最完整AI技术布局的公司,这为“养成”AI手语主播打下了基础。

在“听得清”上,百度智能云研发的ASR语音识别模型,准确性达到98%以上。

在“会翻译”上,百度则联手天津理工大学聋人工学院,请最懂手语的听障师生来完成数据标注。经过6次迭代,相关手语可懂度达到85%以上,达到业界领先水平。

在“会表达”上,百度运用人体动作的视觉识别技术,通过机器学习手语视频,再由二维骨骼点转化驱动三维数字人的手语动作,实现了动作的AIGC。

此外,百度还在手语词汇表达的精确度和丰富度、精确到手指的动捕和动作精修技术、口型与表情的精准矫正等方面不断精进与突破,手语口型生成的准确度就超过98.5%。这些指标除了要过技术关,最后还需要通过手语语言学专家的验收。

可以说,AI手语数字人是技术研发人员、听障群体和专家等一同共创的成果。不少听障朋友评价“产品很有温度”。

实际上同期推向市场的手语数字人并非百度这一家,但市场产品质量层次不齐。有手语数字人在中层翻译问题上,会按照健听人主谓宾语序去直翻,用户体验可想而知。

在推出AI手语数字人之后,百度智能云还相继推出了AI手语平台及一体机,其目标是满足图文、视频、直播等不同需求下,以及医院、车站、银行等不同场景下的快速手语翻译需求,提高听障群体的社会环境友善度。

百度智能云曦灵,高标准的数字人基础设施

AI手语数字人是近两年繁荣的数字人市场中的一个代表。

2021年以来,从2D到3D的各类型数字人陆续登场,活跃在文娱文旅文博、品牌代言宣传、企业服务窗口等多个领域,吸睛力十足,还产生了实在的商业效应,从此不再“只是一个纸片人”。

不过,虽然数字人的打造难度日趋下降,但要运营好的门槛依旧很高。各需求方在打造数字人时,常会面临信息和技术不对称的问题,这背后原因是行业发展还比较分散。

2021年12月,百度在AI开发者大会上推出了智能数字人平台“百度智能云曦灵”, 百度集团副总裁吴甜做客央视《对话》节目时表示,“百度希望通过领先的全栈AI能力,把虚拟人的生产周期缩短到小时级别,降低生产成本,并且用AI驱动生成内容。”

百度智能云曦灵将市场对数字人的需求,分为服务型数字人和演艺型数字人两种,从技术上打通了从数字人生产、人设管理、内容创作到业务编排全流程,并结合最新的UNIT7.0跨模态对话引擎及AIGC技术,形成了平台级服务。目前,百度智能云曦灵打造的AI手语主播,已经为2700万听障用户提供直播及赛事的手语服务;首个文博虚拟宣推官“文夭夭”持证上岗,将为各大博物馆提供讲解、导览、直播等服务;百度品牌数字人希加加也成为麦当劳首个虚拟代言人,为品牌营销开辟新玩法。

具体而言,百度智能云曦灵主要通过全场景、一站式、平台化三大功能来实施。

全场景指,能满足金融、文娱文博文创等不同场景主体的数字人打造及运维需求。在金融场景,百度智能云曦灵就为浦发银行、交通银行打造了数字人客服;在文博场景,百度智能云曦灵在今年5月18日国际博物馆日,为中国文物交流中心推出了首位文博虚拟宣推官“文夭夭”。

一站式指,通过平台四大引擎——包括人像驱动引擎、智能对话引擎、语音交互引擎、智能推荐引擎,来一站式实现数字人 “能听、能说、能理解、可互动”等综合性能力,同时做到“高颜值”和“高智商”。
平台化指,通过在平台内设立人设管理平台、业务编排和技能配置平台、内容创作与IP孵化平台,在通用的技术底层逻辑之上,让用户/客户根据自身需求来选择,以一种低成本且高效的方式,满足自身细分化需求。

未来展望

目前,各企业启用数字人营销的需求增多,从百度智能云曦灵“出厂”的数字人不仅可实现个性化,也将基于技术的迭代逐步形成规模化。

接下来,数字人的舞台还将继续延展。它可以是每一位用户的虚拟分身,更大发挥人类的创造性;它可以是一个带有文化和艺术属性的IP,升级数字时代营销效率效果;它还可以是一个新兴产业,蕴藏着崭新的商业机会。