MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hacker News 2026-05-21 1 min read ★ ★ ★ ★ ☆

当快速傅里叶变换遇上Transformer用于图像修复(2024)

阅读原文 ↗

本文提出一种结合快速傅里叶变换(FFT)与Transformer架构的图像修复方法。通过将FFT引入Transformer的注意力机制,模型能高效捕捉全局频率特征,同时保持局部细节。实验表明,该方法在去噪、超分辨率等任务上优于传统CNN和纯Transformer模型,计算复杂度降低约30%。


核心要点

  1. FFT与Transformer结合:利用FFT提取频域全局特征,弥补Transformer在低频信息处理上的不足
  2. 计算效率提升:相比标准Transformer,FFT模块减少约30%的参数量和计算开销
  3. 图像修复任务表现:在去噪(PSNR提升0.8dB)、超分辨率(SSIM提升0.02)等任务上达到SOTA
  4. 结构设计:采用多尺度FFT块与自注意力并行处理,兼顾局部与全局信息
  5. 消融实验验证:FFT模块对高频噪声抑制和纹理重建贡献最大

正文

图像修复是计算机视觉的核心任务,包括去噪、超分辨率、去模糊等。传统CNN受限于局部感受野,而Transformer虽能捕获长距离依赖,但计算复杂度高且对高频细节处理不佳。本文提出FFT-Transformer,将快速傅里叶变换集成到Transformer架构中,以频域视角增强全局建模能力。

2. 方法

2.1 整体架构

模型由编码器-解码器组成,中间插入多个FFT-Transformer块。每个块包含: - 标准多头自注意力(MHSA):处理空间域局部特征 - FFT模块:对输入特征图进行2D FFT,在频域进行可学习滤波,再逆变换回空间域 - 前馈网络(FFN):增强非线性表达

2.2 FFT模块细节

输入特征图X∈R^(H×W×C),先经2D FFT得到频域表示F∈C^(H×W×C)。设计可学习滤波器W∈C^(H×W×C)与F逐元素相乘,再经逆FFT得到输出。滤波器初始化为高斯低通,训练中自适应调整。

2.3 多尺度融合

为捕获不同频率范围,使用三个并行FFT模块,分别对应低频、中频、高频带通滤波,输出拼接后与MHSA结果相加。

3. 实验

3.1 数据集与设置

在BSD68(去噪)、Set5(超分辨率)、GoPro(去模糊)上测试。使用Adam优化器,学习率1e-4,训练200轮。

3.2 定量结果

  • 去噪(σ=25):PSNR 31.2dB(比SwinIR高0.8dB)
  • 超分辨率(×4):SSIM 0.89(比EDSR高0.02)
  • 去模糊:PSNR 33.5dB(比Restormer高0.5dB)

3.3 消融实验

移除FFT模块后PSNR下降1.2dB,证明频域信息对修复至关重要。多尺度融合比单尺度FFT提升0.6dB。

4. 结论

FFT-Transformer通过频域增强,在保持Transformer全局建模能力的同时,显著提升图像修复质量与效率。未来可扩展至视频修复、医学图像处理等场景。


关联概念

  • 快速傅里叶变换(FFT)
  • Transformer架构
  • 图像修复(Image Restoration)
  • 频域滤波
  • 自注意力机制

可操作项

  1. 使用PyTorch实现FFT模块:利用torch.fft.fft2和torch.fft.ifft2构建可学习频域滤波器。
  2. 在公开数据集(如BSD68)上复现去噪实验,对比SwinIR或Restormer。
  3. 尝试调整多尺度FFT的频带划分(如低频0-0.1π,中频0.1-0.5π,高频0.5-π),观察性能变化。
  4. 将FFT模块集成到现有Transformer图像修复模型中(如Uformer),测试效果提升。

原文: When Fast Fourier Transform Meets Transformer for Image Restoration (2024)
自动加工于 2026-05-21 01:53

#图像修复#Transformer#快速傅里叶变换

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA