基于U形深度特征提取模块的实时图像超分辨率模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Computer Vision and Image Understanding》：A real-time image super-resolution model based on U-shaped deep feature extraction module

【字体：大中小】 时间：2026年03月27日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　轻量级Transformer图像超分辨率模型研究：提出LightU-DFE模块和LightU-SwinIR模型，通过U型编码器-解码器结构实现多尺度特征融合，结合长跳连接减少信息损失，使推理速度提升80.7%-81.5%，同时保持PSNR和SSIM指标优势。

张月青|卜家俊|余志

中国杭州Cethik集团有限公司科学与工业发展部

摘要

近年来，轻量级图像超分辨率（SR）技术受到了学术界和工业界的广泛关注。基于Transformer的模型在图像重建任务中表现出了出色的性能；然而，依赖Transformer架构的轻量级SR模型仍然存在计算复杂度高和推理速度不佳的问题。为了解决这些问题，本文提出了一种新颖的深度特征提取模块LightU-DFE，该模块采用了U形编码器-解码器结构。与传统的基于Transformer的特征提取方法不同，LightU-DFE结合了独特的下采样和上采样策略以及长跳过连接，实现了有效的多尺度特征融合，同时减少了由于特征图尺寸减小而导致的信息损失。这种设计显著降低了计算成本，同时保留了关键的特征表示。在LightU-DFE的基础上，我们进一步开发了LightU-SwinIR，这是一种优化的实时SR模型，提升了整个网络架构的性能。在多个公开数据集上的广泛实验表明，LightU-SwinIR在准确率上具有显著优势，同时大幅提高了效率。具体来说，与基线模型相比，LightU-SwinIR在2倍超分辨率（2×）任务中的推理时间减少了80.7%，在4倍超分辨率任务中的推理时间减少了81.5%，同时在峰值信噪比（PSNR）和结构相似性指数（SSIM）方面保持了可比或更优的重建质量。这些结果有力地验证了该模型的效率和泛化能力，凸显了其在实际图像超分辨率应用中的潜力。

引言

近年来，图像超分辨率（SR）方法在媒体、监控和医学成像等多个领域得到了广泛的研究和应用（Yang和Huang，2017），推动了高效和高质量重建的需求。在此背景下，轻量级图像SR领域取得了显著进展，开发出了多种经典模型，如CARN（Ahn等人，2018）、IMDN（Hui等人，2019）和LAPAR-A（Li等人，2020）。这些模型在计算效率和重建质量之间取得了平衡。随着人们对基于Transformer的架构在SR领域中的强大特征学习能力的关注（Liu等人，2021），SwinIR（Liang等人，2021）应运而生，它利用了Transformer在捕捉长距离依赖关系和特征融合方面的优势。Lightweight-SwinIR（Liang等人，2021）作为SwinIR的紧凑版本，与传统的基于卷积神经网络（CNN）的轻量级SR模型相比，展现了更高的准确率。此外，其出色的重建性能推动了该技术向实际应用的迈进。然而，集成Transformer架构不可避免地会增加计算复杂度（Bordelon等人，2024；Bulatov等人，2024），因此现有基于Transformer的轻量级SR模型的推理速度仍有改进空间。

为了解决这些问题，我们从Lightweight-SwinIR模型的基本概念中获得了灵感，提出了一种低复杂度的深度特征提取模块LightU-DFE，该模块基于U形编码器-解码器架构构建。该模块在编码器的收缩路径中有效减少了特征图的尺寸，并通过解码器的扩展路径恢复了这些尺寸。通过集成长跳过连接，它实现了无缝的特征融合，从而大幅降低了计算负担，同时没有牺牲特征提取能力。

在LightU-DFE的基础上，我们开发了一种实时图像超分辨率模型LightU-SwinIR。该模型能够高效处理2倍和4倍超分辨率任务。LightU-SwinIR不仅具有高计算效率，还保持了高准确率，因此成为图像超分辨率领域中一个非常有前景的解决方案。

为了验证我们提出模型的有效性和合理性，我们在图像SR领域使用多个基准数据集进行了严格控制的实验。比较评估在公开可访问的数据集上进行，如Set5（Bevilacqua等人，2012）、Set14（Zeyde等人，2012）和Urban100（Huang等人，2015）。实验结果清楚地表明，LightU-SwinIR在大幅降低计算成本和推理时间的同时，保持了高重建准确率。这验证了其效率和泛化能力，突显了其在与图像超分辨率相关的各种场景中的实际应用潜力。本文的贡献总结如下：

我们设计了一种U形深度特征提取模块LightU-DFE。在特征提取过程中，该模块可以有效地减小特征图的尺寸，同时保持输入和输出特征图的分辨率不变。因此，显著降低了计算复杂度。这种设计巧妙地结合了U形架构的优势，优化了特征提取和处理过程，以最小化计算开销。
在LightU-DFE的基础上，我们提出了一种实时图像超分辨率（SR）模型LightU-SwinIR。该模型大幅降低了计算复杂度，同时没有损失重建精度。此外，其在性能上优于现有的轻量级SR模型。通过利用LightU-DFE的独特特性，LightU-SwinIR为实时图像超分辨率提供了更高效和准确的解决方案。
我们在多个公开SR数据集上进行了广泛实验。这些实验证明了我们提出模型的高效率和有效性。LightU-SwinIR在准确率和实时性能之间取得了良好的平衡，使其成为实际图像超分辨率应用中一个非常实用和可靠的选项。

早期的图像超分辨率（SR）方法主要依赖于插值方法来估计像素值，例如最近邻插值（Rukundo和Cao，2012）、双线性插值（Kirkland，1998）和双三次插值（Dengwen，2010）。然而，这些传统方法通常会导致重建图像的边缘模糊和细节丢失。

随着深度学习的快速发展，卷积神经网络（CNN）展现了出色的性能

方法

在本节中，我们首先对Lightweight-SwinIR模型的核心概念进行了细致分析。同时，我们探讨了基于Transformer的架构所导致的实时性能限制因素。随后，我们研究了经典语义分割模型U-Net的结构特性。U-Net的独特特性为我们提出的深度特征提取模块LightU-DFE提供了灵感。

实验

在本章中，我们将详细描述实验设置，并从多个角度进行实验，以分析所提出的实时图像超分辨率模型的效率和泛化能力。

结论与讨论

在本文中，我们提出了一种基于U形编码器-解码器结构的深度特征提取模块LightU-DFE。该模块在特征提取过程中有效减少了特征图的尺寸，同时利用长跳过连接进行特征融合，从而在显著降低计算成本的同时保持了强大的特征提取能力。基于该模块，我们进一步构建了一个实时图像超分辨率模型LightU-SwinIR

CRediT作者贡献声明

张月青：撰写——审稿与编辑、原始草稿撰写、可视化、验证、方法论、调查、形式分析、数据整理、概念化。卜家俊：撰写——审稿与编辑、监督。余志：撰写——审稿与编辑、监督、方法论。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作

方法

实验

结论与讨论

CRediT作者贡献声明

利益冲突声明

热点排行