基于超级像素注意力的方法用于真实世界图像的超分辨率重建
《Pattern Recognition》:Superpixel Attention-Based Method for Real-World Image Super-Resolution Reconstruction
【字体:
大
中
小
】
时间:2026年02月13日
来源:Pattern Recognition 7.6
编辑推荐:
提出基于超像素注意力机制的真实现场超分辨率方法,通过两阶段门控退化模型模拟复杂退化过程,构建更真实的LR-HR数据集。SPGAN架构整合超像素模块与注意力机制,有效抑制GAN伪影并增强边缘纹理细节。实验表明在DF2K等真实数据集上性能最优,尤其在严重退化场景下细节保留和边缘锐化效果显著提升。
张俊|李启成|梁正|李书冰|张瑞欣|邓红霞
太原理工大学,中国山西省太原市迎泽西路79号,030600
摘要
由于复杂的图像退化过程以及现有退化模型的有限泛化能力,真实世界图像超分辨率(SR)面临重大挑战。为了解决这些问题,本文提出了一种基于超像素注意力机制的新型超分辨率方法。首先,设计了一种两阶段门控退化模型,以准确模拟真实世界图像的退化过程并生成更真实的低分辨率(LR)图像。此外,我们引入了一种超像素生成对抗网络(SPGAN),将超像素块集成到生成器架构中,并采用超像素注意力机制来增强特征表示,特别是在边缘和纹理方面,从而减少重建图像中的伪影。实验结果表明,该方法在合成数据和真实世界数据集上都取得了先进的性能,在定量指标和视觉质量方面均优于现有的主流真实世界SR方法。特别是对于严重退化的图像,我们的方法能够重建出质量更高的SR图像,同时保留更精细的细节和更清晰的边缘轮廓。
引言
单图像超分辨率(SISR)是计算机视觉领域的一个经典问题,旨在提高低分辨率(LR)图像的分辨率和视觉质量,以生成相应的高分辨率(HR)图像。近年来,由于其广泛的实际应用,它受到了广泛关注[1]。在过去十年中,使用卷积神经网络(CNN)的深度学习方法在解决这一问题方面表现出色。然而,这些现有方法依赖于在训练过程中对HR图像应用固定的单一退化过程(例如双三次下采样)来生成LR图像。由于合成数据和真实世界数据之间的领域差异,这些SISR方法在应用于真实LR图像时,超分辨率性能会显著下降。因此,研究人员逐渐将重点转向了真实世界图像超分辨率(RSISR)。
为了解决缺乏真实世界图像对的问题,研究人员提出直接从同一场景收集不同分辨率的图像来构建真实的LR-HR图像对。然而,基于图像对的方法在获取对齐良好的LR-HR图像对方面存在困难,这使得一些监督学习方法难以获得良好的超分辨率结果。与使用合成LR图像的超分辨率不同,真实世界图像超分辨率(RSISR)的一个主要挑战是退化模型未知。基于退化模型的方法[2]通常手动设计退化模型,使用该模型对HR图像进行退化并生成LR图像,然后使用LR-HR图像对训练模型。基于退化模型建模的RSISR方法的出色性能表明,退化建模具有重要意义,值得进一步探索更实用的退化模型。同时,现有的超分辨率方法往往存在过度平滑或过多伪影的问题。因此,有两个主要挑战:首先是设计一个更适用于真实图像的SISR退化模型,其次是学习一个能够很好地应用于大多数真实图像的有效深度模型。为了解决这两个挑战,本文提出了一种基于超像素注意力机制的真实世界图像超分辨率重建方法。本文的贡献如下:
- 1.
提出了一种两阶段门控退化模型。使用DF2K数据集中的HR图像,通过门控的随机高阶退化过程获得相应的低分辨率(LR)图像。这种退化的LR图像更接近真实世界退化产生的图像,从而在真实世界场景中实现了更好的超分辨率性能。
- 2.
提出了一种基于超像素的真实世界图像超分辨率方法。引入了SPGAN模型,以生成对抗网络(GAN)作为基础结构。将超像素块集成到生成器网络中,并应用超像素注意力机制来增强模型对超像素边缘特征的关注。这有效地解决了GAN架构引入的图像伪影问题,使得超分辨率结果更加精细和可靠。
- 3.
提出了一种超像素注意力模块,用于捕捉超像素区域内的依赖性和相互作用。该模块采用适合GPU的结构,保持了高精度且参数数量相对较少,提高了超分辨率图像的感知质量。
- 4.
该方法与当前主流方法在真实世界数据集上进行了比较,并取得了出色的结果。
章节摘录
单图像超分辨率
自从Dong等人首次将卷积神经网络(CNN)[3]引入图像超分辨率(SR)任务以来,基于深度学习的方法在单图像超分辨率(SISR)方面取得了显著进展,并逐渐成为主导范式。后续研究专注于改进网络架构,以增强特征提取和重建性能。一方面,结合CNN和Transformer优势的混合模型展示了
二阶门控退化模型
基于退化模型的方法通常使用经典退化模型来合成低分辨率输入。经典退化模型首先将HR图像IHR与模糊核< />进行卷积,然后应用缩放因子的下采样操作,最后添加噪声n和JPEG压缩,以获得LR图像ILR。该模型可以数学表示为:
这里,D代表退化模型。对于经典退化模型,现有的
数据集和设置
实验使用DF2K数据集进行,该数据集包括DIV2K[26]和Flickr2K[27]数据集。模型使用NVIDIA GeForce RTX 3090进行训练,批量大小为10。训练过程中使用Adam优化器[28]。SPNet训练了150万次迭代,而SPGAN训练了40万次迭代。应用指数移动平均(EMA)以实现更稳定的训练和更好的性能。
结论
在本文中,我们提出了一种基于超像素注意力机制的真实世界图像超分辨率重建方法,通过结合两阶段门控退化模型和超像素注意力模块,显著提高了真实世界图像的超分辨率性能。两阶段门控退化模型灵活地模拟了各种退化场景,提高了模型的泛化能力,特别是在处理噪声、模糊等退化情况时
CRediT作者贡献声明
张俊:撰写 – 审稿与编辑,撰写 – 原始草稿,可视化,验证,监督,方法论,研究,资金获取,概念化。李启成:撰写 – 审稿与编辑,可视化,验证,监督,软件,资源,项目管理,研究,形式分析,数据管理。梁正:撰写 –
利益冲突声明
邓红霞报告称获得了山西省科技部的财政支持。如果还有其他作者,他们声明没有已知的可能会影响本文工作的竞争性财务利益或个人关系。
致谢
本工作得到了山西省重点研发计划(2022ZDY-F128)、山西省基础研究计划(202203021222128)和山西省中央指导地方科技发展基金项目(YDZJSX2022A016)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号