CVPR 2024技术前沿：美团技术团队的创新探索

简介：本文深入解读美团技术团队在CVPR 2024上的精选论文，涵盖OCR预训练、长尾半监督学习、图生视频、数字人驱动等前沿技术，展现其在计算机视觉领域的卓越成就。

CVPR 2024技术前沿：美团技术团队的创新探索

引言

随着人工智能技术的飞速发展，计算机视觉作为其核心领域之一，正不断推动着各行各业的技术革新。近日，在备受瞩目的CVPR 2024（IEEE Conference on Computer Vision and Pattern Recognition，国际计算机视觉与模式识别会议）上，美团技术团队凭借其在OCR预训练、长尾半监督学习、图生视频、数字人驱动等领域的多项研究成果，再次展示了其在计算机视觉领域的深厚积累与创新能力。

美团技术团队的卓越贡献

一、OCR预训练技术的创新突破

美团技术团队在OCR（Optical Character Recognition，光学字符识别）预训练领域取得了显著进展。他们提出了一种名为OCR-Text Destylization Modeling（ODM）的创新预训练方法，该方法能够有效地将图像中不同风格的文本转换为基于文本提示的统一风格文本，从而解决了文本提示与图像中OCR文本对齐的难题。通过ODM方法，预训练模型能够更好地适应场景文本检测和端到端任务中复杂多样的字体风格，显著提高了OCR任务的性能。此外，美团技术团队还设计了一种新颖的标签生成方法，并结合文本控制器模块，有效降低了OCR任务中的标注成本，为大规模预训练提供了有力支持。

二、长尾半监督学习的新策略

针对长尾半监督学习（LTSSL）中的类不平衡问题，美团技术团队提出了基于平衡和熵的混合（BEM）策略。传统的数据混合方法往往无法解决类不平衡问题，且忽略了类的不确定性。而BEM策略通过类平衡混合库和基于熵的学习方法，重新平衡了数据量和不确定性的类别分布。具体来说，BEM利用类平衡混合库来存储类数据，并根据对数据分布的估计进行采样混合，从而重新平衡类数据量。同时，引入基于熵的采样策略、选择模块和类平衡损失，进一步平衡了类的不确定性。实验结果表明，BEM策略在多个基准测试中显著提高了重新平衡方法的性能，为长尾半监督学习提供了新的解决思路。

三、图生视频技术的创新应用

美团技术团队在图生视频领域也取得了重要进展。他们构建了一个大规模的网络结构——大型视觉运动模型（LVMM），用于预测复杂场景的光流并生成逼真的视频效果。LVMM主要由神经渲染网络、光流预测网络、压缩和重建网络以及潜在空间的扩散模型构成。通过三个阶段的独立训练，LVMM能够生成给定两张图像之间的光流信息，并将其渲染成逼真的图像运动效果。这一技术的应用将极大地丰富视频生成的内容多样性，为虚拟现实、游戏娱乐等领域提供新的可能性。

四、数字人驱动技术的用户友好性提升

在数字人生成技术领域，美团技术团队提出了CustomListener模型，实现了用户通过自由文本自定义Listener属性的功能。传统数字人生成技术中，用户只能通过简单情绪标签去控制Listener属性，可控力有限。而CustomListener模型允许用户使用任意自由文本自定义Listener的身份、性格、行为习惯、社会关系等属性，并结合交流场景中的Speaker讲话内容/语音/动作，实时生成合理且逼真的Listener反应。这一技术的应用将极大地提升虚拟对话交互场景的真实感和沉浸感，为用户带来更加丰富的交互体验。

结语

美团技术团队在CVPR 2024上的多项研究成果不仅展示了其在计算机视觉领域的深厚积累与创新能力，也为相关领域的技术发展提供了新的思路和方法。随着人工智能技术的不断发展，我们有理由相信美团技术团队将在未来继续引领行业创新潮流，推动计算机视觉技术的进一步发展。

CVPR 2024技术前沿：美团技术团队的创新探索

CVPR 2024技术前沿：美团技术团队的创新探索

引言

美团技术团队的卓越贡献

结语

最热文章