简介:本文提出FFTformer框架,通过频域变换与Transformer结构融合,实现计算效率与去模糊质量的双重提升。实验表明,该模型在PSNR指标上较传统方法提升2.3dB,同时推理速度提高40%。
图像去模糊是计算机视觉领域的核心任务之一,其目标是从模糊图像中恢复清晰内容。传统方法主要依赖空间域的卷积操作,通过设计复杂的先验约束(如总变分、稀疏表示)或端到端CNN网络实现去模糊。然而,这些方法面临两大挑战:
频域方法为解决上述问题提供了新思路。图像模糊可建模为清晰图像与模糊核的卷积,根据卷积定理,时域卷积等价于频域乘积。因此,频域分析天然具备全局信息捕捉能力,且傅里叶变换可将空间复杂度从O(N²)降至O(N log N)。然而,现有频域去模糊方法(如FDN)多采用手工设计的频域滤波器,缺乏对复杂模糊模式的自适应学习能力。
FFTformer的核心创新在于将频域分析与Transformer的自注意力机制深度融合。模型流程分为三个阶段:
# 频域注意力伪代码示例def frequency_domain_attention(x):# x: 输入特征图 [B, C, H, W]fft_result = torch.fft.fft2(x) # 空间域到频域magnitude = torch.abs(fft_result)phase = torch.angle(fft_result)# 频域注意力计算query = linear_proj(magnitude) # [B, C, H, W]key = linear_proj(magnitude)value = linear_proj(phase)attn_weights = softmax(query * key.transpose(-1, -2) / sqrt(C))attended_value = attn_weights @ value# 频域重构reconstructed = attended_value * torch.exp(1j * phase)return torch.fft.ifft2(reconstructed).real
为处理不同尺度的模糊模式,FFTformer采用金字塔结构:
实验表明,多尺度设计使PSNR指标提升1.2dB,尤其在边缘区域恢复效果显著。
针对实时应用需求,提出以下优化:
| 方法 | PSNR↑ | SSIM↑ | 时间(ms)↓ |
|---|---|---|---|
| SRN | 28.36 | 0.901 | 125 |
| DeblurGAN-v2 | 29.55 | 0.917 | 210 |
| MIMO-UNet | 30.12 | 0.925 | 85 |
| FFTformer-Base | 31.43 | 0.938 | 52 |
| FFTformer-Large | 32.17 | 0.945 | 110 |
FFTformer-Base在保持实时性(>30fps@512×512)的同时,性能超越所有基线模型。
在GoPro数据集的极端模糊案例中(模糊核大小>50),传统方法出现明显伪影,而FFTformer通过频域全局建模成功恢复文字细节。频域可视化显示,模型能准确识别并抑制高频噪声频段。
针对手机摄像头应用,推荐使用FFTformer-Tiny版本:
对于视频会议场景,提出以下优化:
FFTformer通过频域与Transformer的深度融合,为图像去模糊领域提供了新的技术路径。其高效架构不仅适用于静态图像,更可扩展至视频、医学影像等多元场景,为实时视觉处理开辟了新的可能性。