混合自注意力辅助的生成对抗网络在模糊图像修复中的应用
《Optik》:Hybrid self-attention aided generative adversarial network for hazy image restoration
【字体:
大
中
小
】
时间:2025年11月24日
来源:Optik CS8.3
编辑推荐:
本文提出基于混合注意力机制的改进U-Net生成对抗网络,通过全局注意力模块与窗口式多头自注意力模块协同优化,有效平衡全局光照估计与细节保留,并引入Laplacian边缘一致性正则化损失,显著提升去雾效果,在合成与真实数据集上均优于现有方法。
在雾霾天气中,空气中的悬浮颗粒会通过光的衰减和散射效应,对图像质量造成显著影响。这种影响不仅降低了图像的对比度,还导致了颜色失真、边缘模糊以及细节的丢失,从而严重干扰了图像处理任务的后续步骤,如目标识别和定位。因此,开发高效的图像去雾技术已成为计算机视觉领域的重要研究方向。
现有的图像去雾方法通常面临一个挑战,即如何在全局大气光估计和细节保留之间取得平衡。这一问题的解决对于去雾效果至关重要,因为如果全局估计不准确,可能导致残留的雾霾;而如果过度增强图像,则可能造成颜色失真。为了应对这一问题,研究人员开始探索注意力机制在图像去雾中的应用,以提升模型在捕捉图像全局和局部特征方面的能力。基于改进的U-Net架构的生成对抗网络(GAN)被引入,以实现更高质量的图像恢复。
注意力机制的核心思想是让模型在处理图像时,能够动态地关注不同区域的信息,从而更有效地提取和利用特征。传统的卷积操作虽然在图像处理中广泛应用,但其局部感受野的限制使得模型难以全面捕捉图像的全局信息。相比之下,基于注意力机制的方法能够更好地融合全局和局部特征,从而提升图像恢复的质量。
本文提出了一种新型的混合注意力机制,结合了全局注意力调节器(GAM)、基于窗口的多头自注意力模块(WMSA)以及局部增强的前馈网络。这种机制能够使模型在处理图像时,同时关注全局结构和局部细节,从而减少残留的雾霾并避免过度增强带来的问题。此外,为了进一步优化模型的性能,我们设计了一种专门针对图像去雾任务的损失函数,结合了像素损失、对抗损失和边缘损失,以确保恢复后的图像在视觉效果和结构上都达到较高标准。
在实验部分,我们使用了合成和真实雾霾图像进行测试,结果显示,所提出的方法在去雾效果上优于多种现有的先进方法。该方法不仅能够有效恢复图像的清晰度和对比度,还能够在复杂场景下保持较高的鲁棒性。同时,我们对模型的各个组成部分进行了消融实验,以验证其在不同任务中的表现和重要性。
此外,本文还探讨了当前图像去雾方法的局限性。尽管一些方法通过引入轻量级设计和多尺度融合策略来提高效率,但这些方法仍然在一定程度上依赖于人工设计的先验知识,导致模型在面对复杂雾气分布时缺乏足够的适应性。同时,一些基于窗口注意力的方法虽然能够捕捉更多的全局信息,但由于窗口的独立性,使得模型在处理密集雾气区域时效果不佳,并且计算复杂度较高。
为了克服这些局限,我们提出了混合注意力机制,它结合了全局注意力调节器和基于窗口的自注意力模块,从而在保持模型效率的同时,提升其在处理复杂雾气场景时的能力。通过这种方式,模型能够在处理高分辨率图像时,实现更高效的计算,同时保持较高的恢复质量。
在实验环境中,我们使用了一台配备Windows 10系统的工作站,搭载了13代Intel Core i7-13700 KF处理器、32GB内存和NVIDIA GeForce RTX 4090显卡。网络的实现基于PyTorch 1.13.0的GPU版本,确保了计算的高效性和模型的可扩展性。
数据集方面,我们使用了一个包含7200对清晰与雾霾图像的合成数据集,其中5000对图像被用作训练集,2500对图像作为测试集。数据预处理包括对图像的归一化、增强以及噪声去除,以确保模型能够充分利用数据的特征并提升恢复效果。
综上所述,本文提出了一种基于混合注意力机制的图像去雾方法,该方法在保持模型效率的同时,有效提升了图像恢复的质量。通过结合全局注意力调节器和基于窗口的自注意力模块,模型能够在处理复杂雾气场景时,实现更全面的特征提取和更准确的恢复效果。此外,我们设计的损失函数也能够有效约束模型的输出,使其在视觉效果和结构上达到较高的标准。
本研究的创新点在于,我们提出了一个全新的混合注意力机制,该机制能够同时捕捉图像的全局依赖关系和局部细节,从而提升图像恢复的质量。具体而言,全局注意力调节器(GAM)通过将每个窗口的信息聚合为一个单一的token,并应用共享的多头注意力机制来关联这些token,最终将得到的权重扩展回全分辨率,并与基于窗口的多头自注意力模块(WMSA)的输出进行融合,形成混合自注意力块(HSAB)。这种方法不仅能够提升模型的全局感知能力,还能够避免传统方法中出现的残留雾气问题。
同时,我们还引入了一种基于拉普拉斯边缘一致性正则化的损失函数,以解决传统方法中对边缘模糊和颜色偏移的忽视。通过将拉普拉斯边缘损失、Charbonnier内容损失和对抗损失结合在一起,我们能够更有效地约束模型在薄雾区域的梯度一致性,从而提升恢复后的图像质量。实验结果表明,在相同的网络容量下,这种方法能够将PSNR提升0.12dB,同时将LPIPS降低15.5%,验证了其在图像去雾任务中的有效性。
此外,为了提高模型的计算效率,我们对混合自注意力块进行了优化,使其能够在处理4K级图像时,保持较低的计算延迟。通过将全局上下文建模与局部细节优化分开处理,我们能够有效降低计算复杂度,同时保持较高的恢复质量。实验结果显示,该方法能够在单块RTX 4090显卡上处理256×256的图像,仅需11.7ms,比Uformer方法的延迟降低了31%,同时保留了20.6M的参数量。这种准确度与速度的平衡使得该方法在图像去雾任务中具有较高的竞争力。
在本文的研究中,我们还对现有的图像去雾方法进行了系统性的回顾和分析。当前的图像去雾方法主要分为基于先验知识的方法和基于学习的方法。其中,基于学习的方法,尤其是基于注意力机制的方法,因其在图像恢复任务中的出色表现而受到越来越多的关注。基于先验知识的方法通常依赖于自然图像的统计特性,如局部最大对比度、局部独立性假设、颜色衰减先验和暗通道先验等。这些方法虽然在某些场景下表现良好,但在面对复杂雾气分布时,往往难以取得理想的效果。
基于学习的方法则通过深度学习模型来提取图像的特征,从而实现更高质量的恢复。其中,注意力机制的引入极大地提升了模型在捕捉全局和局部信息方面的能力。例如,一些方法通过引入多头自注意力模块,使得模型能够更有效地关注图像的不同区域,从而提升恢复效果。然而,这些方法仍然存在一些问题,如计算复杂度较高、对数据的依赖性较强等。
为了克服这些问题,我们提出了混合注意力机制,该机制结合了全局注意力调节器和基于窗口的自注意力模块,从而在保持模型效率的同时,提升其在处理复杂雾气场景时的能力。此外,我们还设计了一种专门针对图像去雾任务的损失函数,以确保模型在恢复图像时能够兼顾视觉效果和结构完整性。
在实验结果中,我们对所提出的方法进行了全面的测试,并与多种现有的先进方法进行了比较。结果显示,该方法在恢复图像的清晰度和对比度方面表现优异,能够有效减少残留的雾霾,并避免过度增强带来的问题。同时,该方法在处理高分辨率图像时,也能够保持较低的计算延迟,从而满足实际应用的需求。
综上所述,本文提出了一种基于混合注意力机制的图像去雾方法,该方法在保持模型效率的同时,有效提升了图像恢复的质量。通过结合全局注意力调节器和基于窗口的自注意力模块,模型能够在处理复杂雾气场景时,实现更全面的特征提取和更准确的恢复效果。此外,我们设计的损失函数也能够有效约束模型的输出,使其在视觉效果和结构上达到较高的标准。实验结果表明,该方法在合成和真实数据集上的表现优于多种现有的先进方法,具有较高的应用潜力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号