基于频率感知U型Transformer的图像去噪方法研究及其在视觉信息处理中的应用

【字体: 时间:2025年07月19日 来源:Journal of Visual Communication and Image Representation 2.6

编辑推荐:

  针对传统深度学习方法在图像去噪中存在的网络深度过大和特征图多次位移调整问题,研究人员提出频率感知U型Transformer(FUT),通过多光谱注意力机制(MSAM)和双分支Transformer结构,实现了高效全局依赖捕获与局部特征保留。实验表明FUT在定量和定性评估中均超越现有SOTA方法,为复杂噪声环境下的图像复原提供了新思路。

  

在数字图像处理领域,噪声污染始终是影响视觉信息有效传递的顽疾。无论是智能手机拍摄的夜景照片,还是医学影像中的CT扫描,加性高斯白噪声(AGWN)总是如影随形——它可能源自成像传感器的硬件缺陷,也可能产生于极端温度下的电路干扰。这种噪声不仅让人类观察者皱眉,更让依赖图像分析的智能系统频频"误判"。传统去噪方法各显神通却各有局限:空间滤波器会抹去细节,变换域方法对不规则纹理束手无策,而基于总变分(TV)的算法又因复杂的优化过程难以实用。即便深度学习方法展现出强大潜力,但堆叠如山的网络层数和反复的特征图位移操作,依然让计算资源捉襟见肘。

武汉东湖大学的研究团队在《Journal of Visual Communication and Image Representation》发表的研究中,创新性地将频率分析与U型架构相结合,提出了频率感知U型Transformer(FUT)。这项研究最精妙之处在于模拟了人类视觉系统的多通道处理机制——就像视网膜中的视锥细胞分别敏感于不同光谱,FUT的编码阶段采用多光谱注意力机制(MSAM)在频域解构图像信息,同时通过空间注意力机制锁定关键区域特征,确保裁剪、旋转等操作不会影响特征提取的稳定性。解码阶段则像搭积木般精巧:双分支Transformer通过特征图像素交换实现全局调整,避免了传统方法中反复的位移操作;而双分支上采样(DBUS)模块则如同两位配合默契的画家,一位勾勒整体轮廓,一位描绘局部细节。

关键技术方面,研究团队采用DIV2K数据集(含2700张多分辨率图像)训练噪声水平[0,50]的去噪器,在PyTorch框架下使用RTX 2080Ti(12GB显存)训练,RTX 4060笔记本GPU(8GB显存)测试。通过消融实验验证了MSAM对频谱信息提取、空间注意力对特征鲁棒性的提升作用,以及双分支结构在减少网络深度方面的优势。

【编码架构】
下采样模块通过MSAM实现通道间频谱信息的差异化提取,卷积残差块则利用空间注意力保持几何变换不变性。实验显示该设计在PSNR指标上较传统卷积提升2.3dB。

【解码创新】
双分支Transformer采用特征图像素交换策略,仅需单次调整即可完成全局特征优化,计算耗时降低47%。DBUS模块通过并行处理将局部细节保留率提升至92%。

【性能验证】
在BSD68测试集上,FUT对σ=50的高斯噪声去噪PSNR达32.15dB,超越DnCNN、FFDNet等对比方法。特别是对医学影像中的量子噪声,SSIM指标提高0.12。

这项研究的突破性在于重新定义了Transformer在图像复原中的角色——不再是简单的特征混合器,而是具备频谱解析能力的智能处理器。MSAM机制首次实现了通道间频谱信息的自适应加权,而双分支架构则破解了深度与效率不可兼得的困局。正如评审专家所言,FUT为移动端实时高清去噪提供了可能,其轻量化设计尤其适合嵌入式医疗设备。未来或可拓展至视频去噪、遥感图像修复等领域,让机器视觉真正拥有"明察秋毫"的能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号