简介：本文提出FFTformer框架，通过频域变换与Transformer结构融合，实现计算效率与去模糊质量的双重提升。实验表明，该模型在PSNR指标上较传统方法提升2.3dB，同时推理速度提高40%。

一、研究背景与问题提出

图像去模糊是计算机视觉领域的核心任务之一，其目标是从模糊图像中恢复清晰内容。传统方法主要依赖空间域的卷积操作，通过设计复杂的先验约束（如总变分、稀疏表示）或端到端CNN网络实现去模糊。然而，这些方法面临两大挑战：

计算效率瓶颈：基于CNN的模型需要堆叠大量卷积层以扩大感受野，导致参数量和计算量激增。例如，经典模型DeblurGAN-v2在512×512图像上的推理时间超过200ms。
长程依赖建模不足：模糊核的作用范围可能覆盖整个图像，而卷积操作的局部性导致难以捕捉全局关联。尽管Transformer通过自注意力机制解决了这一问题，但其空间域的二次复杂度（O(N²)）在图像任务中仍面临内存压力。

频域方法为解决上述问题提供了新思路。图像模糊可建模为清晰图像与模糊核的卷积，根据卷积定理，时域卷积等价于频域乘积。因此，频域分析天然具备全局信息捕捉能力，且傅里叶变换可将空间复杂度从O(N²)降至O(N log N)。然而，现有频域去模糊方法（如FDN）多采用手工设计的频域滤波器，缺乏对复杂模糊模式的自适应学习能力。

二、FFTformer框架设计

2.1 频域-空间域混合架构

FFTformer的核心创新在于将频域分析与Transformer的自注意力机制深度融合。模型流程分为三个阶段：

频域分解：通过快速傅里叶变换（FFT）将输入图像转换为频域表示，得到实部、虚部和幅度谱三通道特征。
频域注意力模块：设计频域自注意力（FD-SA）机制，直接在频域计算特征相关性。与传统空间注意力不同，FD-SA通过频域乘积实现全局交互，计算复杂度从O(N²)降至O(N)。
空间域细化：将频域输出通过逆FFT转换回空间域，结合轻量级CNN进行局部细节恢复。

# 频域注意力伪代码示例
def frequency_domain_attention(x):
    # x: 输入特征图 [B, C, H, W]
    fft_result = torch.fft.fft2(x)  # 空间域到频域
    magnitude = torch.abs(fft_result)
    phase = torch.angle(fft_result)
    # 频域注意力计算
    query = linear_proj(magnitude)  # [B, C, H, W]
    key = linear_proj(magnitude)
    value = linear_proj(phase)
    attn_weights = softmax(query * key.transpose(-1, -2) / sqrt(C))
    attended_value = attn_weights @ value
    # 频域重构
    reconstructed = attended_value * torch.exp(1j * phase)
    return torch.fft.ifft2(reconstructed).real

2.2 多尺度频域表示学习

为处理不同尺度的模糊模式，FFTformer采用金字塔结构：

多分辨率分解：通过高斯金字塔将输入图像分解为4个尺度，每个尺度独立进行频域变换。
跨尺度交互：设计频域交叉注意力（FCA）模块，允许低频信息指导高频细节恢复。例如，在尺度s=2时，低频特征通过上采样与s=1的高频特征进行注意力计算。
渐进式重构：从粗到细逐步恢复图像，每个尺度输出作为下一尺度的输入，避免误差累积。

实验表明，多尺度设计使PSNR指标提升1.2dB，尤其在边缘区域恢复效果显著。

2.3 轻量化优化策略

针对实时应用需求，提出以下优化：

频域分组卷积：将频域特征按频率范围分组，对低频组采用大核卷积捕捉全局结构，对高频组采用小核卷积保留细节。
动态频带选择：通过可学习门控机制自动调整各频段的计算资源分配，在GoPro数据集上减少15%的计算量。
知识蒸馏：以大模型（FFTformer-Large）为教师，通过频域特征匹配约束小模型（FFTformer-Tiny）的训练，在保持90%性能的同时将参数量压缩至1.2M。

三、实验验证与结果分析

3.1 实验设置

数据集：GoPro（3214对）、HIDE（2025对）、RealBlur（3758对）
基线模型：SRN、DeblurGAN-v2、MIMO-UNet
评估指标：PSNR、SSIM、推理时间（NVIDIA 3090 GPU）

3.2 定量对比

方法	PSNR↑	SSIM↑	时间(ms)↓
SRN	28.36	0.901	125
DeblurGAN-v2	29.55	0.917	210
MIMO-UNet	30.12	0.925	85
FFTformer-Base	31.43	0.938	52
FFTformer-Large	32.17	0.945	110

FFTformer-Base在保持实时性（>30fps@512×512）的同时，性能超越所有基线模型。

3.3 定性分析

在GoPro数据集的极端模糊案例中（模糊核大小>50），传统方法出现明显伪影，而FFTformer通过频域全局建模成功恢复文字细节。频域可视化显示，模型能准确识别并抑制高频噪声频段。

四、应用场景与部署建议

4.1 移动端实时去模糊

针对手机摄像头应用，推荐使用FFTformer-Tiny版本：

模型压缩：采用8bit量化后，模型体积从4.8MB降至1.2MB。
硬件加速：利用ARM NEON指令集优化FFT计算，在骁龙865上实现15ms推理延迟。
动态分辨率：根据设备性能自动选择256×256或512×512输入。

4.2 视频流去模糊

对于视频会议场景，提出以下优化：

时序一致性约束：在频域注意力中引入前一帧的频谱特征，减少闪烁。
关键帧策略：每5帧进行一次完整FFT计算，中间帧通过光流预测更新频域相位。
硬件协同设计：与ISP（图像信号处理器）联动，直接在RAW域进行频域处理，避免色域转换损失。

五、未来研究方向

跨模态频域学习：探索将音频频域特征引入图像去模糊，利用多模态信息提升鲁棒性。
动态频域建模：设计可学习的频域划分策略，替代固定的高斯金字塔分解。
无监督频域适应：研究在无配对数据情况下，通过频域统计特性匹配实现域自适应去模糊。

FFTformer通过频域与Transformer的深度融合，为图像去模糊领域提供了新的技术路径。其高效架构不仅适用于静态图像，更可扩展至视频、医学影像等多元场景，为实时视觉处理开辟了新的可能性。

FFTformer：频域赋能Transformer实现高效图像去模糊