通过混合卷积和注意力机制提升轻量级图像超分辨率效果

《Pattern Recognition Letters》:Enhancing lightweight image super-resolution with hybrid convolution and attention

【字体: 时间:2025年11月08日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  单图像超分辨率(SISR)中,传统CNN缺乏全局上下文建模,而Transformer因计算成本高难以部署。本文提出轻量级EHCA模型,通过卷积-注意力融合模块(CAIM)双路径协同:局部分支采用7×7卷积捕捉精细纹理,全局分支使用高效注意力机制建模长程依赖,配合局部特征增强块(LFEB)降低计算复杂度。实验表明,EHCA在保持低参数(<1M)的同时,PSNR和SSIM指标优于现有轻量模型,实现高分辨率图像重建与边缘、纹理细节的显著提升。

  
作者:施汉文(Hanwen Shi)、周树波(Shubo Zhou)、谢英华(Yinghua Xie)、潘峰(Feng Pan)、方志军(Zhijun Fang)、江学勤(Xue-Qin Jiang)
中国上海东华大学信息科学与技术学院,邮编201620

摘要

基于Transformer的方法取得了显著的性能提升,因为自注意力机制能够建模长距离依赖关系,从而实现更高分辨率的图像重建。然而,由于关键矩阵运算的计算成本较高,大多数现有方法需要大量资源,难以在低功耗设备上部署。在本文中,我们提出了一种轻量级网络,它将卷积运算与注意力机制相结合,利用了卷积神经网络和Transformer的优势。为了有效建模单图像超分辨率中的全局和局部特征,我们专门设计了一个卷积-注意力融合模块(CAIM),该模块能够在保留细粒度局部纹理的同时捕捉长距离依赖关系。此外,为了增强局部信息的表示能力,我们引入了一个基于CNN的模块(LFEB),在降低计算复杂性的同时编码局部上下文特征。在几个主流基准数据集上的实验结果证明了所提出的EHCA的有效性和效率。我们的模型在恢复高分辨率图像方面表现出强大的能力,同时提高了边缘和纹理的保真度。

引言

单图像超分辨率(SISR)的目标是从低分辨率(LR)输入重建高分辨率(HR)图像。随着数字成像技术的发展,HR图像在许多应用中变得至关重要。然而,SISR仍然是一个高度不适定的问题,因为一个LR图像可能对应多个可能的HR版本。
深度学习显著推动了SISR的发展。SRCNN [1]率先采用了端到端学习的方法,性能优于传统方法。后续模型如RCAN [2]、HAN [3]、SAN [4] 和 RFANet [5] 通过更深的架构、残差学习和注意力机制进一步提升了性能。然而,这些改进带来了高昂的计算需求和较大的模型尺寸,限制了其在移动或嵌入式平台上的实际应用。因此,参数量少于1M的轻量级模型受到了关注,以平衡准确性和效率。
受到自然语言处理领域成功的启发,基于Transformer的模型在视觉任务中也展现了强大的潜力。Vision Transformer(ViT)[6]验证了自注意力机制在建模长距离依赖关系方面的能力,这对于精细图像重建至关重要。然而,自注意力(SA)机制需要大量的计算资源和内存。为了解决这个问题,Swin Transformer [7]引入了基于窗口的注意力机制来降低复杂性。此外,ViT通常会优先处理低频成分,导致图像过于平滑,细节丢失。在Transformer架构中增强局部表示仍然是一个紧迫的挑战。
目前的轻量级SISR模型主要基于CNN或Transformer。CNN在局部纹理建模方面表现出色,但由于缺乏全局上下文意识;Transformer能够捕获全局信息,但计算成本和内存使用量较高。很少有现有方法能够有效结合局部和全局特征,限制了它们恢复细粒度纹理和结构细节的能力。
为了解决这些挑战,我们提出了EHCA,这是一种轻量级的混合模型,它结合了CNN和Transformer来增强局部和全局特征提取,同时保持效率。具体来说,我们引入了一个卷积-注意力融合模块(CAIM),该模块采用双分支设计:一个分支捕获局部上下文信息,另一个分支建模全局依赖关系。虽然双分支架构在一般特征提取中很常见,但针对SISR的有效设计并非易事。我们为超分辨率专门设计了局部特征增强模块(LFEB),在局部分支中使用7×7卷积来捕捉细纹理,同时避免过度强调局部特征,从而避免了超分辨率任务中常见的伪影。全局分支利用高效的注意力机制来整合长距离上下文。这种双路径融合使网络能够自适应地平衡局部和全局信息,同时保持计算效率。
我们将这些模块集成到一个端到端可训练的框架中。如图1所示,与现有的轻量级方法相比,我们的模型取得了具有竞争力的结果,同时显著减少了参数数量和计算复杂性。
本工作的主要贡献如下:
  • 我们提出了一个高效且轻量级的EHCA框架,它利用双路径连接将CNN和Transformer网络相结合,旨在实现更好的SISR性能。这两种分支的融合增强了架构的全局和局部表示能力,同时提高了网络的整体效率。
  • 我们设计了一个基于CNN的模块LFEB,用于编码局部上下文信息并降低计算负担。其较大的7×7内核更符合超分辨率任务的需求。
  • 我们在公共基准数据集上对EHCA进行了全面的定量和定性评估,证明了其重建质量的提升以及准确性和模型复杂性之间的最佳平衡。

相关工作

SRCNN [1]首次引入了有效的端到端可训练CNN,直接将LR图像映射到其HR对应图像,这一设计受到了稀疏编码方法的启发。VDSR [8]应用了全局残差学习来克服深度网络的训练限制,促进了更深层次模型的发展。后续的基于CNN的方法通过扩展模型参数(至43M)来捕获更多信息,从而提高了图像恢复效果。

网络框架

在本节中,我们介绍了所提出的轻量级SISR模型的核心组成部分。如图2所示,该网络由三个主要部分组成:(1)浅层特征提取、(2)深层特征提取和(3)图像重建。该框架的目标是通过放大和增强给定的低分辨率输入图像ILRRr< />×3,生成高分辨率图像IHRR< />×3,其中r表示缩放因子,< />表示LR图像的高度和宽度。

数据集和实现

数据集:根据既定实践[20],我们使用DIV2K数据集[29]进行训练,通过双三次下采样高分辨率(HR)参考图像来生成低分辨率(LR)图像。评估时,我们使用了五个标准基准数据集:Set5 [30]、Set14 [31]、B100 [32]、Urban100 [33] 和 Manga109 [34]。图像质量使用YCbCr颜色空间中的PSNR和SSIM指标进行评估。 实现细节:所提出的EHCA架构包含10个...

结论

我们提出了EHCA,这是一个高效的图像超分辨率网络,它在重建质量和计算成本之间取得了平衡。其特征融合模块(FFB)通过自适应校准减少了特征冗余,而卷积-注意力交互模块(CAIM)实现了局部和全局特征之间的动态交互,从而获得了富有表现力的图像表示。这种双路径设计使网络能够高效地优先处理重要信息,实现了高质量的重建。

CRediT作者贡献声明

施汉文(Hanwen Shi):撰写 – 审稿与编辑、撰写原始草稿、可视化、验证、软件开发、资源管理、方法论研究。 周树波(Shubo Zhou):形式分析、数据管理、概念化设计。 谢英华(Yinghua Xie):形式分析、数据管理、概念化设计。 潘峰(Feng Pan):形式分析、数据管理、概念化设计。 方志军(Zhijun Fang):资金筹集、概念化设计。 江学勤(Xue-Qin Jiang):资金筹集、概念化设计。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号