ICCV 2023：旷视研究院论文亮点深度剖析

简介：本文深入解读了ICCV 2023旷视研究院入选的论文亮点，涵盖3D目标检测、图像匹配、光流估计等前沿领域，展现了旷视在计算机视觉领域的卓越成就。

ICCV 2023 | 旷视研究院入选论文亮点解读

前言

近日，国际计算机视觉大会（ICCV）2023在法国巴黎盛大召开，作为全球计算机视觉领域顶级的学术会议，ICCV每两年举办一次，吸引了全球顶尖的研究机构和学者参与。本次大会共收到8068篇论文投稿，最终接收率为26.8%。其中，旷视研究院凭借其卓越的研究成果，共有14篇论文成功入选，涵盖了纯视觉3D目标检测、多模态3D检测、图像匹配、光流估计等多个前沿领域。本文将对这些论文的亮点进行深度剖析。

一、纯视觉3D目标检测

PETRv2：A Unified Framework for 3D Perception from Multi-Camera Images

PETRv2是旷视研究院提出的一个统一的纯视觉3D感知框架，基于PETR进行了多项改进。该框架通过扩展3D位置编码进行时序建模，实现了不同帧之间物体位置的时序对齐。此外，PETRv2针对不同任务设计了特定的查询向量，并使用统一的Transformer解码器进行解码，在3D物体检测、BEV分割和3D车道检测方面均取得了最先进的性能，且对噪声表现出了很强的鲁棒性。这一成果为3D感知领域提供了一个稳健的基础框架。

StreamPETR：面向纯视觉3D检测的以目标为中心的时序建模框架

StreamPETR是一种长时序建模的纯视觉3D目标检测框架，专为视频流设计。该框架利用目标查询组成的memory queue作为高效的时序表征，通过注意力机制进行高效时序建模，在几乎不增加额外计算成本的情况下，大幅提高了单帧检测器的检测性能。StreamPETR在nuScenes榜单上表现优异，是第一个与激光雷达性能相当的在线纯视觉3D目标检测算法。

二、多模态3D检测

Cross Modal Transformer：快速且鲁棒的3D检测框架

Cross Modal Transformer（CMT）是旷视研究院提出的快速且鲁棒的多模态融合3D检测框架。该框架保留了DETR的设计，不同模态的特征仅在token level进行融合，通过简单的concat方式实现。CMT在nuScenes测试集上取得了SOTA的检测结果，且推理速度超过所有现有方案。此外，CMT还具有极强的鲁棒性，即使整个LiDAR在运行时损毁，模型依旧能保持纯视觉模型的推理精度。

三、图像匹配与光流估计

Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo Matching

针对双目视觉中的深度估计问题，旷视研究院提出了一种基于不确定度引导的自适应图像扭曲模块，设计了新的立体匹配框架CREStereo++。该算法在Robust Vision Challenge 2022比赛中取得冠军，其轻量级版本在KITTI数据集上也表现出色。CREStereo++通过自适应的图像扭曲策略，显著提升了立体匹配的鲁棒性和效率。

Net: Robust Image Matching Based on 3D Occupancy Estimation for Occluded Regions

针对图像匹配中因相机运动和场景结构造成的遮挡问题，旷视研究院提出了Net方法。该方法利用3D占位模型来描述物体之间的遮挡关系，并找出遮挡区域内的匹配点。通过占用估计（OE）模块和遮挡感知（OA）模块的结合，Net能大幅简化启动多视图一致的3D表征过程，在遮挡场景下表现出色。

四、实际应用与未来展望

旷视研究院的这些研究成果不仅推动了计算机视觉领域的技术进步，也为实际应用提供了有力支持。例如，在自动驾驶领域，这些技术可以显著提升车辆的感知能力，提高安全性和可靠性。此外，在机器人导航、视频监控等领域也有广泛的应用前景。

总结

ICCV 2023上旷视研究院的入选论文充分展示了其在计算机视觉领域的深厚积累和创新实力。通过不断探索和突破，旷视研究院为全球计算机视觉技术的发展贡献了自己的力量。我们期待未来旷视研究院能够继续推出更多具有影响力的研究成果，为计算机视觉领域的发展注入新的活力。

参考链接

PETRv2: 论文链接 | 代码链接
StreamPETR: [论文链接](https://arxiv