本文提出一种结合快速傅里叶变换(FFT)与Transformer架构的图像修复方法。通过将FFT引入Transformer的注意力机制,模型能高效捕捉全局频率特征,同时保持局部细节。实验表明,该方法在去噪、超分辨率等任务上优于传统CNN和纯Transformer模型,计算复杂度降低约30%。
核心要点
- FFT与Transformer结合:利用FFT提取频域全局特征,弥补Transformer在低频信息处理上的不足
- 计算效率提升:相比标准Transformer,FFT模块减少约30%的参数量和计算开销
- 图像修复任务表现:在去噪(PSNR提升0.8dB)、超分辨率(SSIM提升0.02)等任务上达到SOTA
- 结构设计:采用多尺度FFT块与自注意力并行处理,兼顾局部与全局信息
- 消融实验验证:FFT模块对高频噪声抑制和纹理重建贡献最大
正文
图像修复是计算机视觉的核心任务,包括去噪、超分辨率、去模糊等。传统CNN受限于局部感受野,而Transformer虽能捕获长距离依赖,但计算复杂度高且对高频细节处理不佳。本文提出FFT-Transformer,将快速傅里叶变换集成到Transformer架构中,以频域视角增强全局建模能力。
2. 方法
2.1 整体架构
模型由编码器-解码器组成,中间插入多个FFT-Transformer块。每个块包含: - 标准多头自注意力(MHSA):处理空间域局部特征 - FFT模块:对输入特征图进行2D FFT,在频域进行可学习滤波,再逆变换回空间域 - 前馈网络(FFN):增强非线性表达
2.2 FFT模块细节
输入特征图X∈R^(H×W×C),先经2D FFT得到频域表示F∈C^(H×W×C)。设计可学习滤波器W∈C^(H×W×C)与F逐元素相乘,再经逆FFT得到输出。滤波器初始化为高斯低通,训练中自适应调整。
2.3 多尺度融合
为捕获不同频率范围,使用三个并行FFT模块,分别对应低频、中频、高频带通滤波,输出拼接后与MHSA结果相加。
3. 实验
3.1 数据集与设置
在BSD68(去噪)、Set5(超分辨率)、GoPro(去模糊)上测试。使用Adam优化器,学习率1e-4,训练200轮。
3.2 定量结果
- 去噪(σ=25):PSNR 31.2dB(比SwinIR高0.8dB)
- 超分辨率(×4):SSIM 0.89(比EDSR高0.02)
- 去模糊:PSNR 33.5dB(比Restormer高0.5dB)
3.3 消融实验
移除FFT模块后PSNR下降1.2dB,证明频域信息对修复至关重要。多尺度融合比单尺度FFT提升0.6dB。
4. 结论
FFT-Transformer通过频域增强,在保持Transformer全局建模能力的同时,显著提升图像修复质量与效率。未来可扩展至视频修复、医学图像处理等场景。
关联概念
- 快速傅里叶变换(FFT)
- Transformer架构
- 图像修复(Image Restoration)
- 频域滤波
- 自注意力机制
可操作项
- 使用PyTorch实现FFT模块:利用torch.fft.fft2和torch.fft.ifft2构建可学习频域滤波器。
- 在公开数据集(如BSD68)上复现去噪实验,对比SwinIR或Restormer。
- 尝试调整多尺度FFT的频带划分(如低频0-0.1π,中频0.1-0.5π,高频0.5-π),观察性能变化。
- 将FFT模块集成到现有Transformer图像修复模型中(如Uformer),测试效果提升。
原文: When Fast Fourier Transform Meets Transformer for Image Restoration (2024)
自动加工于 2026-05-21 01:53