简介:本文介绍了一种基于基础模型驱动的弱增量学习框架,旨在改进和更有效地利用图像级别的标签对新类别的监督。通过从预训练的基础模型中提炼出类别意识和类别无关的知识,生成密集的掩码,提供密集的监督。同时,引入师生架构和密集对比损失来优化伪标签,提高性能。此外,还引入了基于内存的复制-粘贴增强技术,以弥补旧类的遗忘问题。
在计算机视觉领域,语义分割是其中一个重要的任务,旨在将图像中的每个像素分配给相应的类别。随着新类别的不断出现,如何利用已有的图像级别标签逐步更新模型,以适应新的类别是一个具有挑战性的问题。传统的弱增量学习(WILSS)方法在处理新类别时通常会遇到性能下降的问题,因为图像级别的标签无法提供每个片段的准确位置信息。
为了解决这个问题,本文提出了一种基础模型驱动的弱增量学习框架,称为FMWISS。该框架旨在改进并更有效地利用给定的图像级标签对新类别的监督,同时保留旧类别的知识。创新点在于利用互补的基础模型来改善和更有效地使用仅给定图像级别标签的监督。
首先,提出了基于预训练的共同分割,通过从预训练的基础模型中提炼出类别意识和类别无关的知识来生成密集的掩码。这种掩码针对原始图像标签提供了密集的监督信息,从而提高了模型的性能。同时,为了有效利用伪标签,引入了一个师生架构,并提出了密集对比损失。这种损失函数可以动态地优化嘈杂的伪标签,进一步提高了模型的准确性。
此外,为了弥补旧类的遗忘问题,还引入了基于内存的复制-粘贴增强技术。这种技术可以在保留旧类别知识的同时,快速适应新类别的出现。为了提高掩码质量,还提出了一种自监督预训练模型的知识提炼方法。这种方法可以从大量的无标签数据中学习有用的特征表示,进一步增强了模型的泛化能力。
实验结果表明,与传统的弱增量学习方法相比,FMWISS在处理新类别时具有更好的性能表现。具体来说,在PASCAL VOC和Cityscapes等数据集上进行了大量的实验验证,证明了FMWISS的有效性和优越性。此外,为了更全面地评估FMWISS的性能,还将其与其他先进的语义分割方法进行了比较,并进一步探讨了其在不同场景下的应用可能性。
总的来说,本文提出的FMWISS框架为弱增量学习提供了一种新的思路和方法。通过利用互补的基础模型、自监督预训练模型等技术手段,可以有效解决新类别出现时性能下降的问题。同时,该框架还具有较好的泛化能力和适应性,可以在不同的场景下应用。未来的研究方向可以进一步探索如何更好地利用无标签数据和多模态信息来提高语义分割的性能表现。