当快速傅里叶变换遇上Transformer用于图像修复（2024）

本文提出一种结合快速傅里叶变换（FFT）与Transformer架构的图像修复方法。通过将FFT引入Transformer的注意力机制，模型能高效捕捉全局频率特征，同时保持局部细节。实验表明，该方法在去噪、超分辨率等任务上优于传统CNN和纯Transformer模型，计算复杂度降低约30%。

核心要点

FFT与Transformer结合：利用FFT提取频域全局特征，弥补Transformer在低频信息处理上的不足
计算效率提升：相比标准Transformer，FFT模块减少约30%的参数量和计算开销
图像修复任务表现：在去噪（PSNR提升0.8dB）、超分辨率（SSIM提升0.02）等任务上达到SOTA
结构设计：采用多尺度FFT块与自注意力并行处理，兼顾局部与全局信息
消融实验验证：FFT模块对高频噪声抑制和纹理重建贡献最大

正文

图像修复是计算机视觉的核心任务，包括去噪、超分辨率、去模糊等。传统CNN受限于局部感受野，而Transformer虽能捕获长距离依赖，但计算复杂度高且对高频细节处理不佳。本文提出FFT-Transformer，将快速傅里叶变换集成到Transformer架构中，以频域视角增强全局建模能力。

2. 方法

2.1 整体架构

模型由编码器-解码器组成，中间插入多个FFT-Transformer块。每个块包含： - 标准多头自注意力（MHSA）：处理空间域局部特征 - FFT模块：对输入特征图进行2D FFT，在频域进行可学习滤波，再逆变换回空间域 - 前馈网络（FFN）：增强非线性表达

2.2 FFT模块细节

输入特征图X∈R^(H×W×C)，先经2D FFT得到频域表示F∈C^(H×W×C)。设计可学习滤波器W∈C^(H×W×C)与F逐元素相乘，再经逆FFT得到输出。滤波器初始化为高斯低通，训练中自适应调整。

2.3 多尺度融合

为捕获不同频率范围，使用三个并行FFT模块，分别对应低频、中频、高频带通滤波，输出拼接后与MHSA结果相加。

3. 实验

3.1 数据集与设置

在BSD68（去噪）、Set5（超分辨率）、GoPro（去模糊）上测试。使用Adam优化器，学习率1e-4，训练200轮。

3.2 定量结果

去噪（σ=25）：PSNR 31.2dB（比SwinIR高0.8dB）
超分辨率（×4）：SSIM 0.89（比EDSR高0.02）
去模糊：PSNR 33.5dB（比Restormer高0.5dB）

3.3 消融实验

移除FFT模块后PSNR下降1.2dB，证明频域信息对修复至关重要。多尺度融合比单尺度FFT提升0.6dB。

4. 结论

FFT-Transformer通过频域增强，在保持Transformer全局建模能力的同时，显著提升图像修复质量与效率。未来可扩展至视频修复、医学图像处理等场景。

关联概念

快速傅里叶变换（FFT）
Transformer架构
图像修复（Image Restoration）
频域滤波
自注意力机制

可操作项

使用PyTorch实现FFT模块：利用torch.fft.fft2和torch.fft.ifft2构建可学习频域滤波器。
在公开数据集（如BSD68）上复现去噪实验，对比SwinIR或Restormer。
尝试调整多尺度FFT的频带划分（如低频0-0.1π，中频0.1-0.5π，高频0.5-π），观察性能变化。
将FFT模块集成到现有Transformer图像修复模型中（如Uformer），测试效果提升。

原文: When Fast Fourier Transform Meets Transformer for Image Restoration (2024)
自动加工于 2026-05-21 01:53

核心要点

正文

2. 方法

2.1 整体架构

2.2 FFT模块细节

2.3 多尺度融合

3. 实验

3.1 数据集与设置

3.2 定量结果

3.3 消融实验

4. 结论

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章