HazeLightFormer:一种用于图像去雾和低光恢复的联合变换模型
《Optics & Laser Technology》:HazeLightFormer: Joint transformer model for image dehazing and low-light restoration
【字体:
大
中
小
】
时间:2025年11月08日
来源:Optics & Laser Technology 4.6
编辑推荐:
低光照增强与单图像去雾是计算机视觉中的关键任务,传统方法因处理分离导致计算冗余和性能不足。本文提出HazeLightFormer,一种联合Transformer架构,通过集成矩形窗口注意力(RWA)和移位矩形窗口注意力(SRWA)的联合Transformer层(JTL)捕捉局部细节与全局上下文,结合双上采样模块(DUM)实现高分辨率重建,同时保持结构完整性和减少伪影。实验表明,该模型在多个数据集上显著优于现有方法,在PSNR、SSIM等指标上表现突出,尤其在处理低光照与雾霾共存场景时具有优越的视觉质量和鲁棒性。
在当今的计算机视觉领域,低光照增强与去雾技术是两个核心任务,它们旨在提升图像的可见性和感知质量,尤其是在光照不足或有雾气干扰的环境中。传统上,这些任务通常被分别处理,导致计算复杂度增加,同时面对这两种退化情况时,其性能表现往往不够理想。为了应对这些挑战,本文提出了一种联合的Transformer架构,名为HazeLightFormer,该架构能够在单一网络中高效处理低光照增强和去雾问题。HazeLightFormer的核心是一个联合Transformer层(JTL),该层结合了矩形窗口注意力(RWA)和移位矩形窗口注意力(SRWA),以捕捉细节并保留全局信息。此外,还设计了一个双上采样模块(DUM),结合了双线性上采样和可学习的PixelShuffle方法,用于恢复空间分辨率并保持结构完整性。在多个基准数据集上的广泛实验表明,HazeLightFormer在视觉质量、清晰度、颜色准确性和伪影抑制方面显著优于现有最先进的方法。这些结果突显了HazeLightFormer作为增强低光照和雾气条件下的图像的有效且实用解决方案的潜力。
低光照增强(LLIE)和单图像去雾(SID)是两个在计算机视觉中非常重要的任务,它们都致力于提升图像的可见性和感知质量,尤其是在面临复杂环境条件时。在低光照条件下拍摄的图像往往缺乏良好的对比度,颜色完整性受损,并且结构信息丢失,这在后续的应用中如目标检测、自动驾驶和监控等方面会显著影响其质量。在低光照条件下,相机传感器无法捕捉足够照明的图像,导致图像质量下降和视觉吸引力降低。这不仅降低了视觉体验本身,也阻碍了有效信息的传递。因此,低光照条件下的图像增强已经成为一个重要的研究领域。在这些情况下,提升可见性不仅使显著特征和物体更清晰可见,还为复杂计算机视觉操作,如人员行为识别和受限区域识别,提供了坚实的基石。
图像增强是一个对输入图像进行处理的过程,特别是在低光照条件下,旨在增强某些视觉特征。Wang等人提出的自然性保持增强算法(NPEANII)在非均匀照明图像增强方面有重要影响,其他研究则探索了照明映射方法以提高视觉质量。基于云计算的方法近年来成为低光照增强的稳健框架,提供了可扩展的资源、高水平的计算能力和对专用硬件的访问。直方图均衡化(HE)和自适应直方图均衡化(AHE)是提高图像对比度的最基本策略之一,特别是在非均匀照明或低对比度区域的情况下。
Retinex理论在文献中被广泛讨论,是通过增强颜色恒定性和压缩动态范围来改善低光照图像的关键理论。Retinex理论的核心思想是将图像分解为反射率和照明部分,以便分别调整。通过分别校准这些组件,可以显著提高图像的整体质量。为了应对雾气或低光照条件带来的挑战,近年来引入了几种图像去雾方法。其中,He等人提出的暗通道先验(DCP)算法因其在去雾过程中的高效性而著称。该算法利用无雾户外图像的统计特性来估计传输图和大气光,从而显著提高图像的清晰度和对比度。在基于先验技术的基础上,深度学习算法被开发出来,进一步提升了去雾性能。特别是,Qin等人提出了一个端到端的深度学习网络,称为特征融合注意力网络(FFA-Net),其中包括一种新的特征融合注意力机制。该架构利用了通道和像素注意力模块,选择性地放大重要的特征,从而实现更精确的雾气水平估计和细节保留。近年来,基于Transformer的模型在自然语言处理(NLP)中首次引入,随后在计算机视觉应用中展现出卓越的成果。它们通过自注意力机制能够捕捉长距离依赖关系和全局上下文,因此特别适合用于图像去雾。诸如Vision Transformers(ViTs)和图像Transformer中的类注意力(CaiT)等架构提供了强大的、灵活的结构,用于提取和组合特征,并在捕捉图像空间关系的同时,实现雾气消除的优异结果。
尽管在单图像去雾和低光照增强领域取得了显著进展,但大多数现有方法仍然针对这些任务分别处理。现实场景如自动驾驶汽车、户外摄影和监控常常面临低光照和雾气同时存在的问题。在这种情况下,专门针对某一问题的模型往往表现不佳。此外,基于卷积神经网络(CNN)的标准解决方案主要关注局部特征,虽然尝试捕捉全局上下文,但未能有效保留复杂的细节。至于恢复方法,虽然许多是基于Transformer的,但它们在捕捉全局关系方面表现出色,却缺乏对实际应用中高效设计的关注。因此,在一个单一模型中,需要有效的整合解决方案来同时处理这两种退化,提升可见性、结构完整性以及实际应用的可行性。
为了应对这些挑战,我们引入了HazeLightFormer,这是一种专门用于联合去雾和低光照增强的统一Transformer网络。与传统的将这些过程视为独立实体的方法不同,HazeLightFormer被设计为在一个框架中同时处理这两种退化,通过双分支的联合Transformer层(JTL)捕捉局部纹理和全局上下文。通过整合矩形窗口注意力(RWA)和移位矩形窗口注意力(SRWA),该模型在恢复细节和提升可见性之间取得了良好的平衡。此外,双上采样模块(DUM)结合了双线性上采样和可学习的PixelShuffle方法,引入了特征重建细节增强,减少了伪影和失真。这些架构创新使该模型在实际的恶劣条件下,如雾气和光照不足环境中保持稳定。
本文的主要贡献可以总结为以下几点:首先,HazeLightFormer被引入为一种单一、整合的Transformer架构,可以独立处理图像去雾和低光照增强任务。其次,设计了一种联合Transformer,该Transformer结合了矩形窗口注意力(RWA)和移位矩形窗口注意力(SRWA),能够高效地捕捉局部细节和全局依赖关系。第三,我们提出了双上采样模块(DUM),该模块结合了双线性插值和基于PixelShuffle的重建,通过混合结构支持高分辨率的恢复,同时保持空间保真度和细结构信息。第四,通过大量的架构优化和残差学习技术,HazeLightFormer能够产生与现有最先进的方法相比具有竞争力或更好的结果,具有高视觉质量和更少的伪影。
第2节对现有的SID和LLIE方法进行了文献综述。第3节描述了所提出方法的整体框架。第4节展示了实验结果以及对结果的分析,接着是结论。第2节详细介绍了现有方法的分类,包括LLIE、SID和夜间去雾。对于LLIE,传统的图像增强技术主要依赖于直方图处理算法来提升图像的对比度。直方图均衡化(HE)是一种较早的技术,试图以均匀的方式重新分配图像的直方图以提升整体对比度。而对比度限制自适应直方图均衡化(CLAHE)则将图像分成小块,并在控制对比度增强的同时应用局部直方图均衡化,从而最小化噪声增强。Retinex理论作为第二种类型的增强方法,旨在将图像分为照明和反射率两个基本组成部分,以便分别调整。已有多种基于这一前提的方法,例如SSR、CRAFT和MSR,这些方法直接将反射率图作为最终增强结果。LIME则采用不同的方法,通过模拟照明为三个颜色通道的最大值,并采用结构感知的平滑方法来保持照明一致性。然而,LIME在极端暗淡的图像中面临某些局限,其中准确的恢复变得不可能。
2017年,深度学习(DL)的低光照增强时代开始。Lore等人使用了一种称为Low-Light Net(LLNet)的深度自动编码器进行对比度增强和去噪。为了创造更好的低光照增强结果,Shen等人、Tao等人和Lv等人在Shen等人的多分支架构中注入了多尺度特征。为了应对KinD的一些视觉缺陷,作者引入了KinD + +,其中包含一个多尺度照明注意力模块。RAUNA包含一个受算法展开影响的分解网络(DecNet),以及同时考虑局部和全局亮度的调整网络。算法展开提高了分解过程,允许同时引入从数据中获得的隐式偏差和从传统方法中继承的显式偏差。例如,Jiang等人提出了Enlighten-GAN,该算法不需要成对的训练数据,但通常需要仔细选择训练图像。在低光照图像增强(LLIE)方面,持续关注的是在调整光线时保持空间和结构完整性。双域融合网络有助于增强图像,通过处理空间和频率成分,并将它们结合起来以恢复细节。
在夜间去雾方面,许多方法被提出,包括半监督方法、统一模型以及变分方法。Zhang等人引入了第一个合成夜间去雾基准,而后来的方法通过引导APSF和梯度自适应卷积解决了非均匀照明的问题。此外,高-低频率分解与灰度-颜色流相结合的方法也被用于处理夜间去雾问题。一些最近的研究包括具有空间-频率约束的半监督方法、统一所有类型的雾气模型以及用于智能运输可见性的变分方法(VNDHR)。此外,现实世界夜间雾气的自先验学习和对比-对抗方法,旨在增强在缺乏完全监督情况下的泛化能力。这些研究强调了在低光照去雾环境中评估方法的重要性。
本文提出的方法HazeLightFormer是一个新颖的联合Transformer架构,用于低光照恢复和图像去雾。它允许将分层特征表示与全局-局部注意力机制相结合,以提升在恶劣户外条件下的图像感知可见性。如图1所示,该架构分为三个阶段:浅层特征提取、分层联合特征编码和双上采样下的渐进恢复。通过结合双线性插值和可学习的PixelShuffle方法,该模块在去雾和低光照增强任务中提高了恢复质量。如图3所示,双上采样模块包含两个并行分支。通过结合双线性插值和可学习的PixelShuffle方法,该模块在去雾和低光照增强任务中提高了恢复质量。通过结合双线性插值和可学习的PixelShuffle方法,该模块在去雾和低光照增强任务中提高了恢复质量。通过将双线性和PixelShuffle分支的输出沿着通道维度连接,形成更丰富、更多样化的上采样特征表示。然后,通过3×3的卷积层进一步处理上采样特征,以确保平滑融合。这些融合后的输出被传递到解码器的下一层。在各个阶段之间也使用了残差连接,以增强信息流动并支持稳定的梯度传播。
为了提高恢复质量,我们的模型采用了一种混合损失函数,结合了像素级和边缘级监督。该混合损失函数结合了Charbonnier损失以创建有意义的像素级重建,并通过边缘损失来强制结构一致性,惩罚梯度差异。这种混合损失函数确保网络产生锐利的输出,具有高边缘保持和较少的模糊度。假设$ \hat{X} $为恢复后的图像,$ X $为真实图像,总损失函数定义为:
$$ L_{total} = \lambda_1 \cdot L_{Char}( \hat{X}, X ) + \lambda_2 \cdot L_{edge}( \hat{X}, X ) $$
其中,$ L_{Char} $和$ L_{edge} $分别代表像素级和边缘级损失。$ L_{Char} $通过计算恢复图像与真实图像之间的像素强度差异,而$ L_{edge} $通过计算梯度差异来惩罚梯度差异。这些损失函数的组合有助于网络在保持结构一致性的同时,实现高质量的图像恢复。通过这些损失函数,模型能够在低光照和雾气条件下实现更优的图像恢复效果。
为了评估HazeLightFormer的性能,本文使用了去雾和低光照数据集。其中,RESIDE-6k、Densehaze和NH-Haze用于去雾,LOL和MIT-Adobe 5k用于低光照增强。此外,NHM和NHR用于夜间去雾。各数据集的详细描述如表1所示。
表1展示了不同数据集的细节,包括去雾和低光照增强任务。数据集类型、数据集名称、训练样本和测试样本分别列在表中。例如,RESIDE-6k数据集包含5000个训练样本和1000个测试样本。Densehaze数据集包含50个训练样本和5个测试样本。NH-Haze数据集包含50个训练样本和5个测试样本。LOL数据集包含485个训练样本和15个测试样本。MIT-Adobe 5k数据集包含4500个训练样本和500个测试样本。NHM数据集包含300个训练样本和50个测试样本。NHR数据集包含8073个训练样本和897个测试样本。GTA5数据集包含787个训练样本和77个测试样本。
在实验设置方面,本文在Tesla T4上实现了HazeLightFormer,超参数如表2所示。表2列出了实现HazeLightFormer所使用的超参数。包括补丁大小、优化器、批处理大小、学习率、训练轮次和GPU。补丁大小为256×256,优化器为Adam,学习率在2e-4到1e-6之间。训练轮次为500,GPU为Tesla T4。
在评估指标方面,SID中需要测量去雾后的图像与原始清晰图像之间的接近程度,包括保真度和感知质量。峰值信噪比(PSNR)是一种流行的度量方式,它通过像素强度差异来表达去雾图像与真实图像之间的差异。虽然更高的PSNR值通常意味着更好的恢复,但它并不总是与感知质量相一致。为了量化这一点,结构相似性指数(SSIM)被用来衡量恢复图像的结构保真度、对比度和亮度保持。SSIM更接近人类视觉体验。梯度幅度相似性偏差(GMSD)是一种感知指标,旨在衡量边缘和纹理的保持,这对恢复清晰和自然的图像至关重要。平均亮度误差(AMBE)计算去雾图像与参考图像之间的平均亮度差异,以确保算法恢复真实的照明。基于视觉显著性的指数(VSI)还评估了视觉显著区域的感知重要性,基于显著图、梯度和颜色相似性。这使得VSI在去雾中特别有用,因为它与人类对图像质量的感知密切相关。
在LLIE中,目标是增强感知,保持自然亮度和细节保留。PSNR被用作参考度量,通过估计增强图像相对于真实图像的像素准确保真度。然而,它通常忽略了结构失真。为了更好地代表人类感知质量,SSIM被广泛用于评估增强保留的结构和纹理细节。LLIE通常包括广泛的对比度和亮度变化,因此AMBE高度适用。它估计平均亮度差异,确保增强后的图像既不比参考图像太暗,也不太亮。GMSD随后补充了这一分析,通过衡量梯度幅度的一致性,从而捕捉边缘和纹理的完整性,这对低光照条件下图像细节丢失和噪声普遍存在的场景尤为重要。这些测量共同提供了对恢复图像保真度、结构完整性和感知质量的全面评估,从而促进更高效的LLIE算法开发。
本文还进行了定性分析,展示了SID和LLIE算法在多个挑战性数据集上的表现。我们展示了全面的视觉比较,以强调SOTA算法在感知质量、结构细节保留和颜色准确性方面的成果。该研究突出了每种算法的优缺点,展示了它们在各种可见性退化条件下的表现。在SID方面,如图4所示,比较了RESIDE数据集上的SOTA方法和所提出的HazeLightFormer。传统方法如AOD-Net和PAD-Net在低增强、低对比度和雾气残留方面表现不佳。AMEI-Net和AMIF-Net虽然在某些方面取得平均增益,但会因过度平滑和褪色纹理而影响表现。DEA-Net和MSCNN过度补偿,导致对比度或人工纹理的增加,而AID-Net和TSMD-Net提供了更好的平衡恢复,增强结构和色调。DehazeFormer在细节恢复方面表现出色,但常常产生略微过度处理或合成的外观。相比之下,我们的HazeLightFormer在所有视觉特征方面实现了出色的平衡,提供了更好的清晰度、自然亮度、正确的对比度和准确的纹理重建,同时没有引入额外的伪影或不自然的色调。从视觉上看,其输出与真实图像最为相似,从而证明了其在强烈去雾和真实场景恢复中的高效性。
在LLIE方面,如图7所示,展示了各种LLIE模型的综合视觉比较,强调了重要的视觉属性,如清晰度、对比度、亮度、纹理保真度和光滑度。初始模型如KinD + +和EnlightenGAN产生的输出要么太暗,要么包含不自然的颜色,缺乏适当的细节恢复能力。相比之下,URetinex-Net和LLFormer在亮度和对比度方面有所改善,但未能有效保留细节。更现代的模型如Retinexformer、RAUNA和UDVN在视觉上表现平衡,尽管有些模型在输出中表现出轻微的过饱和或柔软度。如MMamba-LLIE和MIDNet这样的模型在细节和曝光方面表现出色,但会引入轻微的伪影或牺牲颜色准确性。与所有这些输出相比,我们提出的模型HazeLightFormer在所有测试指标中表现出色。它表现出卓越的清晰度、自然的亮度、准确而生动的颜色、平滑的梯度和良好的细节保留。此外,它与真实图像非常接近,优于其他方法的整体视觉质量。
在夜间去雾方面,如图9所示,比较了NHR和NHM数据集上的去雾和增强结果。OSFD在清晰度方面有所改善,但经常导致边缘过度锐化,引入不自然的颜色色调。APSF-GAC在对比度方面表现更好,但会暗淡某些区域,减少自然平滑度。DDL-Net提供了更平衡的亮度,但有时缺乏细节恢复。我们的HazeLightFormer实现了更好的对比度恢复、更清晰但平滑的纹理,以及更自然的颜色再现,这些与真实图像非常接近。在NHR和NHM的情况下,我们的方法提供了清晰的视觉增强,而没有过饱和或伪影。
定量分析方面,表3、表4和表5提供了我们提出的HazeLightFormer与SOTA网络在三个挑战性数据集(RESIDE-6k、Dense-haze和NH-haze)上的全面比较。这些数据集覆盖了不同的雾气密度和现实挑战,因此是衡量泛化能力和增强保真的合适基准。表3展示了RESIDE-6k数据集上的SID定量分析结果,最佳结果以粗体形式强调。表4展示了Dense-Haze数据集上的SID定量分析结果,最佳结果以粗体形式强调。表5展示了NH-Haze数据集上的SID定量分析结果,最佳结果以粗体形式强调。这些结果表明,HazeLightFormer在所有评估指标中均优于其他方法,特别是在去雾和增强保真度方面。HazeLightFormer在PSNR和SSIM方面显著优于其他方法,显示出对高密度雾气的优异恢复能力。在PSNR和SSIM方面,HazeLightFormer在所有数据集中均取得最佳结果,显示出对复杂雾气模式的优异处理能力。
在LOL数据集(表7)上,我们的方法也表现出色。LOL数据集是一个公认的现实世界基准数据集,包含低光照和正常光照图像的配对。在该数据集上,我们的方法也表现出色,取得了所有方法中最高的PSNR(27.85 dB)和SSIM(0.897),显示出对低光照图像数据的细节恢复能力。此外,我们的方法在PSNR和SSIM方面优于其他方法,特别是在处理黑暗区域时的对比度和清晰度方面。我们的方法在NIQE和LOE指标上也表现优异,显示出对视觉质量的优异保持,以及增强图像中的亮度一致性。此外,AMBE(15.367)和GMSD(0.042)在该组中也排名靠前,显示出比其他Transformer方法(如Retinexformer和LLFormer)更少的亮度或纹理偏差。
表8比较了四个模型(OSFD、APSF-GAC、DDL Net和HazeLightFormer)在三个数据集(NHR、NHM和GTA5)上的PSNR和SSIM指标。OSFD在NHR上取得最佳PSNR,而DDL Net提供了最高的SSIM,显示出对结构的优异保持。APSF-GAC在NHM上取得最佳PSNR和SSIM,也取得了GTA5上的最佳PSNR,尽管其SSIM较低。HazeLightFormer在所有数据集上均表现出优异的性能,特别是在GTA5上取得了更高的SSIM,显示出其在增强对比度和保持结构保真度方面的平衡能力。总体而言,这些结果表明,虽然个别模型在特定数据集上表现优异,但HazeLightFormer在整体性能上表现最稳定和全面。
为了进一步验证模型的性能,本文进行了消融研究,展示了不同网络组件、损失函数和阶段数量对LOL数据集上图像增强效果的影响。表9、表10和表11总结了这些消融研究的结果。表9展示了不同网络组件的消融研究报告。表10展示了不同损失函数的消融研究。表11展示了不同阶段数量的消融研究。表9表明,JTL、DUM、残差连接、RWA和SRWA组件的逐步添加显著提高了PSNR和SSIM,显示出这些模块在完整模型中的互补优势。在所有测试配置中,包含所有组件的版本表现最佳,PSNR为27.85,SSIM为0.897。残差连接和RWA与SRWA的结合有助于提高特征细化和学习稳定性。表10展示了四种考虑的损失函数的表现。在所有测试的损失中,混合损失表现最佳,PSNR为27.85,SSIM为0.897,而单独的L1、L2、边缘损失和Charbonnier损失产生的PSNR和SSIM较低。这些结果进一步验证了这些不同损失函数的价值,因为使用混合损失可以引入互补的损失公式,从而更好地引导网络训练。
表11研究了网络通过增加阶段数量的表现。如表所示,4个阶段产生了最佳的PSNR和SSIM值,分别为27.91和0.902。然而,3个阶段的改进(27.85和0.897)非常小,表明3个阶段足以实现接近最大质量的性能。
综上所述,本文提出的HazeLightFormer是一种新颖的基于Transformer的框架,专门用于以端到端的方式处理SID和低光照增强问题。与传统的将这些任务分别处理的方法不同,HazeLightFormer将这两个过程整合到一个独特的架构中。通过有效应用JTL,结合RWA和SRWA,该模型能够捕捉图像的局部特征和全局上下文,从而生成更高质量的视觉内容。此外,通过加入DUM,使得高分辨率图像的恢复成为可能,同时保持关键的纹理细节,减少可能影响图像质量的任何伪影。在多个基准数据集上的大规模实验表明,HazeLightFormer在定性和定量评估中均优于近期的最先进的方法。它能够显著提升图像的可见性,提高对比度水平,并生成在低光照或雾气条件下更加自然和美观的结果。因此,HazeLightFormer是多种现实世界视觉应用中的一个极具前景的解决方案,包括监控、自动驾驶和遥感等关键领域。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号