基于频率感知融合的混合 CNN-Transformer 网络用于高效单图像超分辨率

【字体: 时间:2025年05月28日 来源:Expert Systems with Applications 7.5

编辑推荐:

  在单图像超分辨率(SISR)任务中,CNN 与 Transformer 融合存在挑战。研究人员提出频率感知融合块(FAFB)及 Hybrid-former 网络,动态调整特征分割比例。实验表明其在多数据集上提升效率且性能相当,为 SISR 领域提供新方向。

  在数字图像技术飞速发展的今天,高清图像的需求日益增长,然而现实中低分辨率图像的普遍存在与高清需求之间的矛盾亟待解决。单图像超分辨率(Single Image Super-Resolution, SISR)作为一项旨在从低分辨率(Low-Resolution, LR)图像生成高分辨率(High-Resolution, HR)图像的关键技术,在医学影像、遥感测绘、视频监控等领域具有重要应用价值。但该任务面临着严重的 “病态问题”,即单个 LR 图像可能对应多个合理的 HR 图像,这主要源于图像降质过程中高频细节(如边缘、纹理)的丢失。如何有效捕捉和建模图像的不同频率信息成为提升重建质量的关键 —— 高频信息(High-Frequency, HF)关乎视觉上的真实感和细节准确性,低频信息(Low-Frequency, LF)则影响整体结构的完整性和平滑度。
传统的卷积神经网络(Convolutional Neural Networks, CNN)在捕捉局部细节方面表现出色,例如 SRCNN 模型通过三层卷积直接学习 LR 到 HR 的非线性映射,但浅层架构限制了其感受野。尽管后续研究通过增加网络深度和宽度来更好地利用全图的 HF 信息,但 CNN 在建模非局部区域的全局依赖关系上存在明显局限。近年来,Transformer 凭借自注意力(Self-Attention, SA)机制在计算机视觉领域崭露头角,其通过计算成对相似性来建立长序列的全局依赖,如 SwinIR、Restormer 等模型在图像恢复任务中展现出优于传统方法的性能。然而,SA 机制的高计算复杂度使其在处理大尺寸图像时效率低下,且更擅长捕捉全局模式而容易忽略对 SISR 至关重要的局部细节。

鉴于 CNN 与 Transformer 在捕捉 HF 和 LF 信息上的互补性,将两者融合成为提升 SISR 性能的自然思路。现有方法或采用顺序架构交替处理特征,导致信息分时输出、互补性丢失;或采用并行分支但未充分考虑 HF 与 LF 在重建中的不同作用。在此背景下,国内研究团队开展了相关研究,提出了一种新颖的混合网络架构 Hybrid-former,并发表于《Expert Systems with Applications》,为 SISR 领域提供了新的解决方案。

研究人员采用的关键技术方法包括:构建频率感知融合块(Frequency-Aware Fusion Block, FAFB),将输入特征沿通道维度按动态比例分割为 HF 分支和 LF 分支,分别由 CNN 和 Transformer 处理,再通过聚合网络融合;设计 U-Net 风格的 Hybrid-former 架构,在下采样路径通过卷积层和反洗牌(unshuffle)操作降低空间分辨率、保留全局结构,上采样路径利用像素洗牌(pixel shuffle)和跳跃连接恢复细节;根据 U-Net 层级深度动态调整 FAFB 中的通道分割比例,并引入辅助监督信号指导多尺度重建。

研究结果


频率感知融合块(FAFB)的设计与验证


对于输入特征 F∈RH’×W’×C,FAFB 将其沿通道维度分为 Fl∈RH’×W’×Cl和 Fh∈RH’×W’×Ch(Cl+Ch=C),分别由 Transformer 和 CNN 处理。通过动态调整分割比例,FAFB 可灵活捕捉宽范围的频率信息,实验证明该设计能有效整合 HF 和 LF 信息,提升特征表示的全面性。

Hybrid-former 架构的性能表现


Hybrid-former 采用 U-Net 结构,下采样路径通过反洗牌操作在降低空间分辨率的同时保留空间信息,使 SA 机制在上下文一致的特征上运行,减少计算复杂度;上采样路径通过跳跃连接融合浅层细节。关键创新在于层级自适应的通道分割策略:浅层分配更多通道给 HF 分支以细化局部纹理,深层则侧重 LF 分支提取全局信息。在 DIV2K 数据集上训练后,模型在 Set5、Set14、BSD100、Urban100、Manga109 等五个基准数据集上的实验表明,其在保持 comparable 性能的同时显著提升了效率。

结论与讨论


Hybrid-former 通过 FAFB 的动态频率感知融合和 U-Net 层级的自适应特征分配,成功克服了 CNN 在全局建模和 Transformer 在计算效率上的局限,实现了 HF 与 LF 信息的协同利用。该研究首次将动态分割比例引入 SISR,为 CNN 与 Transformer 的融合提供了新范式,其多尺度重建能力和高效性为实际应用(如实时图像处理)奠定了基础。此外,辅助监督信号的引入增强了模型对不同层级细节的恢复能力,为后续多任务学习和跨领域应用提供了思路。研究结果不仅验证了混合架构的有效性,更为 SISR 领域的发展提供了有价值的技术参考和理论依据,推动了基于深度学习的图像超分辨率技术向更高效、更精准的方向迈进。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号