CVPR2023新突破:CNN与Transformer融合下的多任务多模态图像融合

作者:很酷cat2024.08.15 00:24浏览量:36

简介:本文介绍了CVPR 2023在多模态图像融合领域的创新成果——结合CNN和Transformer的多任务多模态图像融合方法(CDDFuse),通过分解共有和特有特征,显著提升了图像融合效果。

引言

在计算机视觉领域,图像融合是一项重要技术,尤其在医疗诊断、遥感监测和军事侦察等领域具有广泛应用。随着深度学习的发展,尤其是卷积神经网络(CNN)和Transformer的兴起,图像融合技术迎来了新的突破。CVPR 2023上提出的CDDFuse方法,通过巧妙结合CNN和Transformer,实现了多任务多模态图像融合的新高度。

CDDFuse方法概述

技术背景

传统的多模态图像融合方法多依赖于自编码器结构,但这种方法存在三个主要缺陷:CNN的解释性较差、难以捕获全局信息,以及跨模态特征提取不充分。为了克服这些挑战,CDDFuse方法引入了Correlation-Driven feature Decomposition Fusion(相关性驱动特征分解融合)机制,将跨模态信息分解为共有信息和特有信息,从而实现更高效的图像融合。

方法框架

CDDFuse方法分为两个主要阶段:特征提取与分解、图像融合与重建。

特征提取与分解

在第一阶段,CDDFuse使用Restormer块来提取跨模态浅层特征,然后引入双分支Transformer-CNN特征提取器。这一双分支结构包括Lite Transformer(LT)块和Invertible Neural Networks(INN)块。LT块利用长程注意力处理低频全局特征,而INN块则专注于提取高频局部特征。通过嵌入的语义信息,低频特征被设计为相关,而高频特征则保持不相关,从而实现了特征的有效分解。

图像融合与重建

在第二阶段,基于第一阶段提取的特征,CDDFuse使用LT和INN模块输出融合图像。融合层通过相似的方式处理base和detail特征,确保融合结果的准确性和一致性。解码器则用于将分解的特征在通道维度拼接,并重建最终的融合图像。

关键技术亮点

  1. 特征解耦:将跨模态信息分解为共有信息和特有信息,提高了特征提取的可控性和可解释性。
  2. 双分支结构:结合Transformer和CNN的优势,LT块处理全局特征,INN块保留高频细节,实现了特征的有效提取和融合。
  3. 相关性驱动损失函数:通过增强低频特征之间的相关性、降低高频特征之间的相关性,促进了跨模态特征的有效分解。
  4. 两阶段训练法:采用自监督训练方式,先重建原始输入图像,再融合多模态图像,提高了模型的泛化能力。

实验验证与结果

CDDFuse方法在ir-vis(红外与可见光)和医学影像融合等任务上进行了实验验证,结果显示该方法在融合效果和下游任务(如分割、检测)性能上均有显著提升。特别是在ir-vis融合中,CDDFuse不仅保留了红外图像的温度信息,还融合了可见光图像的纹理细节,使得融合图像更加清晰、准确。

实际应用与前景

CDDFuse方法为多模态图像融合提供了新的思路和技术手段,具有广泛的应用前景。在医疗领域,该方法可以用于医学图像的融合与分析,提高诊断准确性;在遥感监测和军事侦察等领域,CDDFuse可以融合多种传感器数据,提供更全面、准确的信息支持。

结论

CVPR 2023提出的CDDFuse方法,通过结合CNN和Transformer的优势,实现了多任务多模态图像融合的新突破。该方法在特征提取、特征分解和图像融合等方面均表现出色,为图像融合技术的发展注入了新的活力。随着技术的不断进步和完善,CDDFuse方法有望在更多领域得到广泛应用和推广。