CVPR2023新突破：CNN与Transformer融合下的多任务多模态图像融合

简介：本文介绍了CVPR 2023在多模态图像融合领域的创新成果——结合CNN和Transformer的多任务多模态图像融合方法（CDDFuse），通过分解共有和特有特征，显著提升了图像融合效果。

引言

在计算机视觉领域，图像融合是一项重要技术，尤其在医疗诊断、遥感监测和军事侦察等领域具有广泛应用。随着深度学习的发展，尤其是卷积神经网络（CNN）和Transformer的兴起，图像融合技术迎来了新的突破。CVPR 2023上提出的CDDFuse方法，通过巧妙结合CNN和Transformer，实现了多任务多模态图像融合的新高度。

CDDFuse方法概述

技术背景

传统的多模态图像融合方法多依赖于自编码器结构，但这种方法存在三个主要缺陷：CNN的解释性较差、难以捕获全局信息，以及跨模态特征提取不充分。为了克服这些挑战，CDDFuse方法引入了Correlation-Driven feature Decomposition Fusion（相关性驱动特征分解融合）机制，将跨模态信息分解为共有信息和特有信息，从而实现更高效的图像融合。

方法框架

CDDFuse方法分为两个主要阶段：特征提取与分解、图像融合与重建。

特征提取与分解

在第一阶段，CDDFuse使用Restormer块来提取跨模态浅层特征，然后引入双分支Transformer-CNN特征提取器。这一双分支结构包括Lite Transformer（LT）块和Invertible Neural Networks（INN）块。LT块利用长程注意力处理低频全局特征，而INN块则专注于提取高频局部特征。通过嵌入的语义信息，低频特征被设计为相关，而高频特征则保持不相关，从而实现了特征的有效分解。

图像融合与重建

在第二阶段，基于第一阶段提取的特征，CDDFuse使用LT和INN模块输出融合图像。融合层通过相似的方式处理base和detail特征，确保融合结果的准确性和一致性。解码器则用于将分解的特征在通道维度拼接，并重建最终的融合图像。

关键技术亮点

特征解耦：将跨模态信息分解为共有信息和特有信息，提高了特征提取的可控性和可解释性。
双分支结构：结合Transformer和CNN的优势，LT块处理全局特征，INN块保留高频细节，实现了特征的有效提取和融合。
相关性驱动损失函数：通过增强低频特征之间的相关性、降低高频特征之间的相关性，促进了跨模态特征的有效分解。
两阶段训练法：采用自监督训练方式，先重建原始输入图像，再融合多模态图像，提高了模型的泛化能力。

实验验证与结果

CDDFuse方法在ir-vis（红外与可见光）和医学影像融合等任务上进行了实验验证，结果显示该方法在融合效果和下游任务（如分割、检测）性能上均有显著提升。特别是在ir-vis融合中，CDDFuse不仅保留了红外图像的温度信息，还融合了可见光图像的纹理细节，使得融合图像更加清晰、准确。

实际应用与前景

CDDFuse方法为多模态图像融合提供了新的思路和技术手段，具有广泛的应用前景。在医疗领域，该方法可以用于医学图像的融合与分析，提高诊断准确性；在遥感监测和军事侦察等领域，CDDFuse可以融合多种传感器数据，提供更全面、准确的信息支持。

结论

CVPR 2023提出的CDDFuse方法，通过结合CNN和Transformer的优势，实现了多任务多模态图像融合的新突破。该方法在特征提取、特征分解和图像融合等方面均表现出色，为图像融合技术的发展注入了新的活力。随着技术的不断进步和完善，CDDFuse方法有望在更多领域得到广泛应用和推广。