CVPR 2023突破：UniDetector——通用目标检测的新里程碑

简介：本文介绍了CVPR 2023上清华大学等团队提出的通用目标检测算法UniDetector，该算法仅需标注500类即可检测超过7000类目标，展现了强大的泛化能力。

引言

在计算机视觉领域，目标检测一直是研究的热点之一。然而，传统的目标检测算法往往受限于标注数据的类别数量，难以应对开放世界中不断涌现的新类别。近日，在CVPR 2023（国际计算机视觉与模式识别会议）上，清华大学、香港大学、Meta AI和MIT的研究团队联合提出了一种全新的通用目标检测算法——UniDetector，该算法在标注500类数据的基础上，成功实现了对超过7000类目标的检测，为通用目标检测领域树立了新的里程碑。

UniDetector算法概述

UniDetector算法的核心在于其强大的泛化能力和对异构标签空间的有效利用。传统的目标检测算法在训练时依赖于大量标注数据，且只能检测训练时见过的类别。而UniDetector则通过以下关键技术实现了对未知类别的检测：

图像与文本对齐预训练：UniDetector引入了大规模图像文本对齐预训练，利用预训练的图像-文本模型（如RegionCLIP）中的嵌入，为模型提供了丰富的跨模态特征。这种预训练方式不仅提高了模型的通用性，还使得模型能够利用语言信息来辅助目标检测。
异构标签空间训练：UniDetector能够利用来自多个来源和异构标签空间的图像进行训练。这些图像具有不同的标签空间，但UniDetector通过一种分离的训练策略，将proposal生成阶段和RoI（Region of Interest）分类阶段的训练分开进行，从而有效利用了这些多样化的训练数据。
概率校准：为了平衡模型对不同类别的预测分布，UniDetector引入了概率校准方法。这种方法能够降低已知类别的预测概率，提高未知类别的预测概率，从而实现对新类别的有效检测。

实验结果与分析

实验结果表明，UniDetector在多个数据集上均表现出了卓越的性能。在LVIS、ImageNetBoxes和VisualGenome等具有大量类别的目标检测数据集上，UniDetector展现出了强大的零样本泛化能力（即数据集中参与训练的图像样本为0个），其性能超过了传统监督算法平均4%以上。此外，在另外13个具有不同场景的目标检测数据集上，UniDetector仅使用3%的训练数据就实现了最先进的性能。

实际应用与前景

UniDetector的提出为通用目标检测领域带来了新的思路和方法。该算法不仅能够有效应对开放世界中的新类别检测问题，还具备广泛的应用前景。例如，在自动驾驶、智能安防、机器人视觉等领域，UniDetector可以实现对各种未知目标的实时检测与识别，为这些领域的发展提供强有力的技术支持。

结论

综上所述，UniDetector作为CVPR 2023上的一项重大成果，展现了通用目标检测领域的最新进展。该算法通过图像与文本对齐预训练、异构标签空间训练和概率校准等关键技术，实现了对未知类别的有效检测。未来，随着技术的不断发展和完善，UniDetector有望在更多领域发挥重要作用，推动计算机视觉技术的进一步发展。

参考文献

论文题目: Detecting Everything in the Open World: Towards Universal Object Detection
论文作者: Zhenyu Wang, Yali Li, Xi Chen, Ser-Nam Lim, Antonio Torralba, Hengshuang Zhao, Shengjin Wang
论文链接: http://arxiv.org/abs/2303.11749v1
开源地址: https://github.com/zhenyuw16/UniDetector

CVPR 2023突破：UniDetector——通用目标检测的新里程碑

引言

UniDetector算法概述

实验结果与分析

实际应用与前景

结论

参考文献

最热文章