简介:本文介绍了CVPR 2023在多模态图像融合领域的创新成果——结合CNN和Transformer的多任务多模态图像融合方法(CDDFuse),通过分解共有和特有特征,显著提升了图像融合效果。
在计算机视觉领域,图像融合是一项重要技术,尤其在医疗诊断、遥感监测和军事侦察等领域具有广泛应用。随着深度学习的发展,尤其是卷积神经网络(CNN)和Transformer的兴起,图像融合技术迎来了新的突破。CVPR 2023上提出的CDDFuse方法,通过巧妙结合CNN和Transformer,实现了多任务多模态图像融合的新高度。
传统的多模态图像融合方法多依赖于自编码器结构,但这种方法存在三个主要缺陷:CNN的解释性较差、难以捕获全局信息,以及跨模态特征提取不充分。为了克服这些挑战,CDDFuse方法引入了Correlation-Driven feature Decomposition Fusion(相关性驱动特征分解融合)机制,将跨模态信息分解为共有信息和特有信息,从而实现更高效的图像融合。
CDDFuse方法分为两个主要阶段:特征提取与分解、图像融合与重建。
在第一阶段,CDDFuse使用Restormer块来提取跨模态浅层特征,然后引入双分支Transformer-CNN特征提取器。这一双分支结构包括Lite Transformer(LT)块和Invertible Neural Networks(INN)块。LT块利用长程注意力处理低频全局特征,而INN块则专注于提取高频局部特征。通过嵌入的语义信息,低频特征被设计为相关,而高频特征则保持不相关,从而实现了特征的有效分解。
在第二阶段,基于第一阶段提取的特征,CDDFuse使用LT和INN模块输出融合图像。融合层通过相似的方式处理base和detail特征,确保融合结果的准确性和一致性。解码器则用于将分解的特征在通道维度拼接,并重建最终的融合图像。
CDDFuse方法在ir-vis(红外与可见光)和医学影像融合等任务上进行了实验验证,结果显示该方法在融合效果和下游任务(如分割、检测)性能上均有显著提升。特别是在ir-vis融合中,CDDFuse不仅保留了红外图像的温度信息,还融合了可见光图像的纹理细节,使得融合图像更加清晰、准确。
CDDFuse方法为多模态图像融合提供了新的思路和技术手段,具有广泛的应用前景。在医疗领域,该方法可以用于医学图像的融合与分析,提高诊断准确性;在遥感监测和军事侦察等领域,CDDFuse可以融合多种传感器数据,提供更全面、准确的信息支持。
CVPR 2023提出的CDDFuse方法,通过结合CNN和Transformer的优势,实现了多任务多模态图像融合的新突破。该方法在特征提取、特征分解和图像融合等方面均表现出色,为图像融合技术的发展注入了新的活力。随着技术的不断进步和完善,CDDFuse方法有望在更多领域得到广泛应用和推广。