CVPR 2024：美团技术团队在计算机视觉领域的创新突破

简介：本文解读了美团技术团队在CVPR 2024上提交的精选论文，涵盖OCR预训练、长尾半监督学习及视觉AIGC技术创新等多个前沿领域，展示了美团在计算机视觉研究中的卓越成就。

CVPR 2024 | 美团技术团队精选论文解读

引言

IEEE Conference on Computer Vision and Pattern Recognition（CVPR）作为计算机视觉与模式识别领域的顶级会议，每年都吸引着全球众多学者和企业的关注。在2024年的CVPR上，美团技术团队凭借其在OCR预训练、长尾半监督学习以及视觉AIGC技术创新等方面的研究成果，再次展现了其在计算机视觉领域的深厚实力和创新能力。本文将精选美团技术团队在CVPR 2024上的部分论文进行解读，带您一窥这些前沿技术的奥秘。

论文一：ODM——OCR预训练的新范式

标题：ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting

作者：Chen Duan, Pei Fu, Shan Guo, Qianyi Jiang, Xiaoming Wei (美团)

摘要：
近年来，文本-图像联合预训练技术在多个领域取得了显著进展，但在OCR（光学字符识别）任务中，文本提示与图像中文本区域的对齐仍是一个挑战。现有的基于MIM（Masked Image Modeling）或MLM（Masked Language Modeling）的方法存在局限性。美团技术团队提出了一种创新的预训练方法——OCR-Text Destylization Modeling（ODM），该方法能够将图像中不同风格的文本转换为基于文本提示的统一风格文本，从而更好地对齐文本提示和图像中的OCR文本。此外，通过设计新颖的标签生成方法和文本控制器模块，ODM有效降低了OCR任务中的标注成本，使更多未经标注的数据能够被用于预训练。实验结果表明，ODM在场景文本检测和端到端识别任务中显著提高了性能，超越了现有的预训练方法。

论文二：BEM——长尾半监督学习的新策略

标题：BEM: Balanced and Entropy-based Mix for Long-Tailed Semi-Supervised Learning

作者：Hongwei Zheng, Linyuan Zhou, Han Li (SJTU), Jinming Su, Xiaoming Wei, Xiaoming Xu (美团)

摘要：
长尾半监督学习（LTSSL）因其数据分布不平衡和标注数据稀缺而极具挑战性。传统的数据混合方法无法解决类不平衡问题，且忽略了类的不确定性。美团技术团队提出了一种基于平衡和熵的混合方法（BEM），通过类平衡混合库和基于熵的采样策略、选择模块及类平衡损失，重新平衡数据量和不确定性的类别分布。实验结果表明，BEM在多个基准测试中显著提高了LTSSL的性能，证明了其在补充再平衡方法方面的多功能性和通用性。

论文三：LVMM——大规模视觉运动模型的构建

标题：Animating General Image with Large Visual Motion Model

作者：Dengsheng Chen, Xiaoming Wei, Xiaolin Wei (美团)

摘要：
传统基于光流构建的图像驱动算法受限于特定使用场景，无法广泛预测任意场景的动态特征。美团技术团队首次尝试构建大规模网络结构——大型视觉运动模型（LVMM），用于预测复杂场景的光流。LVMM由神经渲染网络、光流预测网络、压缩和重建网络以及潜在空间的扩散模型构成，通过三个阶段独立训练，实现了对静态图像动态特征的准确预测。实验结果表明，LVMM能够驱动静态图像表现出符合自然规律的动态效果，大大增加了图像的视觉吸引力。

论文四：CustomListener——数字人驱动的新突破

标题：CustomListener: Text-guided Responsive Interaction for User-friendly Listening Head Generation

作者：Xi Liu, Ying Guo, Cheng Zhen, Tong Li, Yingying Ao, Pengfei Yan (美团)

摘要：
数字人生成技术在虚拟对话交互场景中日益重要，但现有Listener生成方法用户可控力有限。美团技术团队提出CustomListener，允许用户使用任意自由文本自定义Listener属性（如身份、性格、行为习惯等），并结合Speaker的讲话内容/语音/动作实时生成合理且逼真的Listener反应。这一创新技术为数字人驱动的虚拟对话交互提供了更丰富的表达方式和更自然的交互体验。

结语

美团技术团队在CVPR 2024上的精彩表现，不仅展示了其在计算机视觉领域的深厚积累和创新实力，也为未来的研究方向提供了宝贵的启示。随着技术的不断进步和应用场景的不断拓展，