采用压缩注意力机制的高效变压器,用于立体图像超分辨率处理

《Knowledge-Based Systems》:Efficient transformer with compressed attention for stereo image super-resolution

【字体: 时间:2025年11月08日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  立体图像超分辨率高效模型ETCASSR提出,采用压缩注意力机制减少计算量,包含跨视图压缩注意力块CCAB、窗口基压缩注意力块CWSAB和转置压缩注意力块CTSAB,结合空间局部特征分支和通道全局特征分支,在保持高性能的同时显著降低参数量和浮点运算量。实验表明,ETCASSR在多个数据集上PSNR/SSIM优于现有方法,且计算效率提升,并衍生出单图像超分辨率模型ETCASR。

  图像超分辨率(Image Super-Resolution, SR)是计算机视觉领域的重要研究方向之一,旨在提升图像的分辨率,使低分辨率图像呈现出更高质量的细节。在这一任务中,立体图像超分辨率(Stereo Image Super-Resolution, STSR)作为一项特殊的研究任务,不仅需要利用单个视角的内部信息,还能够借助另一视角的信息,从而获得更丰富的特征表示。这种多视角信息的结合为STSR提供了额外的优势,特别是在复杂场景和低分辨率图像的恢复方面。然而,传统的自注意力机制(Self-Attention, SA)虽然在捕捉长距离依赖关系方面表现出色,但在实际应用中却面临计算成本高的问题,尤其是在使用大窗口尺寸时。因此,如何在保持性能的同时提升效率成为研究的重点。

本文提出了一种基于压缩注意力机制的高效Transformer模型,用于立体图像超分辨率任务,命名为ETCASSR(Efficient Transformer with Compressed Attention for Stereo Image Super-Resolution)。此外,还设计了一种适用于单图像超分辨率的变体模型ETCASR(Efficient Transformer with Compressed Attention for Single Image Super-Resolution)。这些模型的核心在于压缩注意力机制,它通过逐步从部分到全部管理通道的使用,减少了自注意力机制中的冗余信息,从而在提升效率的同时保持高质量的特征提取。压缩注意力机制不仅降低了计算复杂度,还提高了模型在实际应用中的运行速度。

ETCASSR主要由三个关键模块组成:压缩交叉注意力块(Compressed Cross-Attention Block, CCAB)、压缩窗口式自注意力块(Compressed Window-Based Self-Attention Block, CWSAB)和压缩转置自注意力块(Compressed Transposed Self-Attention Block, CTSAB)。CCAB通过引入压缩注意力机制,优化了交叉视角的特征提取过程,减少了计算资源的消耗。CWSAB和CTSAB则分别负责在单视角内进行局部和全局特征提取,它们通过减少通道数量,降低了计算负担,同时通过融合局部和全局信息,增强了特征的表达能力。此外,为了进一步提升模型的性能,还设计了空间局部特征分支和通道全局特征分支,分别用于补充CWSAB和CTSAB的功能。

实验结果表明,ETCASSR在多个标准数据集上均表现出色,包括Middlebury、KITTI2012、KITTI2015和Flickr1024。在这些数据集中,ETCASSR不仅在PSNR和SSIM等评价指标上取得了较高的成绩,而且在模型参数数量和计算复杂度(FLOPs)方面显著优于其他现有方法。同时,ETCASR在单图像超分辨率任务中也表现出良好的性能,尤其是在Set5、Set14、BSD100、Urban100和Manga109数据集上,其PSNR和SSIM指标均优于其他主流模型。此外,ETCASSR和ETCASR在实际应用中表现出较高的运行效率,能够在有限的计算资源下快速生成高质量的超分辨率图像。

本文还对模型的各个组件进行了详细的分析,包括压缩注意力机制对特征提取的影响、不同压缩比例对性能和计算效率的权衡,以及模型在不同数据集上的表现。通过这些分析,可以发现压缩注意力机制不仅能够有效减少计算成本,还能够提升模型在复杂场景下的表现。同时,实验结果也表明,ETCASSR和ETCASR在不同任务中均具有良好的适应性和通用性,可以用于其他图像恢复任务,如图像去雨、图像去噪等。

综上所述,本文提出的ETCASSR和ETCASR模型在保持高效的同时,实现了高质量的图像超分辨率。这些模型通过压缩注意力机制,有效减少了计算负担,同时通过引入局部和全局特征分支,增强了特征表示的丰富性。实验结果表明,这些模型在多个数据集上均表现出色,具有广泛的适用前景。未来的研究可以进一步探索压缩注意力机制在其他图像处理任务中的应用,以实现更高效的图像恢复和增强。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号