简介:本文介绍了CVPR 2023上清华大学等团队提出的通用目标检测算法UniDetector,该算法仅需标注500类即可检测超过7000类目标,展现了强大的泛化能力。
在计算机视觉领域,目标检测一直是研究的热点之一。然而,传统的目标检测算法往往受限于标注数据的类别数量,难以应对开放世界中不断涌现的新类别。近日,在CVPR 2023(国际计算机视觉与模式识别会议)上,清华大学、香港大学、Meta AI和MIT的研究团队联合提出了一种全新的通用目标检测算法——UniDetector,该算法在标注500类数据的基础上,成功实现了对超过7000类目标的检测,为通用目标检测领域树立了新的里程碑。
UniDetector算法的核心在于其强大的泛化能力和对异构标签空间的有效利用。传统的目标检测算法在训练时依赖于大量标注数据,且只能检测训练时见过的类别。而UniDetector则通过以下关键技术实现了对未知类别的检测:
图像与文本对齐预训练:UniDetector引入了大规模图像文本对齐预训练,利用预训练的图像-文本模型(如RegionCLIP)中的嵌入,为模型提供了丰富的跨模态特征。这种预训练方式不仅提高了模型的通用性,还使得模型能够利用语言信息来辅助目标检测。
异构标签空间训练:UniDetector能够利用来自多个来源和异构标签空间的图像进行训练。这些图像具有不同的标签空间,但UniDetector通过一种分离的训练策略,将proposal生成阶段和RoI(Region of Interest)分类阶段的训练分开进行,从而有效利用了这些多样化的训练数据。
概率校准:为了平衡模型对不同类别的预测分布,UniDetector引入了概率校准方法。这种方法能够降低已知类别的预测概率,提高未知类别的预测概率,从而实现对新类别的有效检测。
实验结果表明,UniDetector在多个数据集上均表现出了卓越的性能。在LVIS、ImageNetBoxes和VisualGenome等具有大量类别的目标检测数据集上,UniDetector展现出了强大的零样本泛化能力(即数据集中参与训练的图像样本为0个),其性能超过了传统监督算法平均4%以上。此外,在另外13个具有不同场景的目标检测数据集上,UniDetector仅使用3%的训练数据就实现了最先进的性能。
UniDetector的提出为通用目标检测领域带来了新的思路和方法。该算法不仅能够有效应对开放世界中的新类别检测问题,还具备广泛的应用前景。例如,在自动驾驶、智能安防、机器人视觉等领域,UniDetector可以实现对各种未知目标的实时检测与识别,为这些领域的发展提供强有力的技术支持。
综上所述,UniDetector作为CVPR 2023上的一项重大成果,展现了通用目标检测领域的最新进展。该算法通过图像与文本对齐预训练、异构标签空间训练和概率校准等关键技术,实现了对未知类别的有效检测。未来,随着技术的不断发展和完善,UniDetector有望在更多领域发挥重要作用,推动计算机视觉技术的进一步发展。