一种用于水下图像增强的多尺度特征提取与注意力聚合网络
《Expert Systems with Applications》:A Multi-scale Feature Extraction and Attention Aggregation Network for Underwater Image Enhancement
【字体:
大
中
小
】
时间:2025年08月09日
来源:Expert Systems with Applications 7.5
编辑推荐:
水下图像增强方法需同时具备多尺度特征提取、局部细节编码和全局上下文建模能力,但现有方法难以兼顾。本文提出MSEA-UNet网络,采用编码器-解码器架构,集成多尺度卷积与注意力机制提取浅层特征,设计ConvDown模块高效下采样,利用SimAM注意力模块动态加权特征。解码器引入MCSC-Up模块,通过MscSE机制实现多尺度特征融合与空间上采样,同时采用MHTA模块融合CNN局部特征与ViT全局建模能力,有效提升图像细节和整体清晰度。实验表明该方法在主观与客观评估中均优于现有UIE方法。
本文介绍了一种新的水下图像增强网络——MSEA-UNet,旨在有效整合多尺度特征提取、局部细节编码和全局上下文建模这三项关键能力。水下图像由于光线的吸收和散射,常常出现颜色偏移、对比度低和模糊等问题,这使得直接从原始图像中提取信息变得困难。因此,水下图像增强(Underwater Image Enhancement, UIE)技术对于提升水下视觉研究的效率和准确性具有重要意义。
当前的水下图像增强方法主要分为三类:基于物理模型的方法、非物理模型的方法以及基于深度学习的方法。基于物理模型的方法依赖于对水下环境的先验知识,通过建立物理模型来估计图像参数并重建原始图像。然而,由于水下环境的复杂性和动态性,这些方法的假设条件往往难以满足,导致效果受限。非物理模型的方法则试图通过建立源图像与目标图像之间的映射关系,调整像素的灰度值以达到增强的目的。这类方法在复杂环境下表现不佳,缺乏对全局信息的有效建模。相比之下,基于深度学习的方法通过大量配对数据进行训练,能够更高效地完成对比度调整和颜色校正等任务,表现出更强的适应性和鲁棒性。
尽管基于深度学习的水下图像增强方法在近年来取得了显著进展,但大多数现有方法仍然无法同时实现多尺度特征提取、局部细节编码和全局上下文建模。为了弥补这一不足,本文提出了一种全新的网络架构——MSEA-UNet。该网络采用经典的编码器-解码器结构,通过融合多尺度特征提取与注意力机制,实现对水下图像质量的全面提升。
MSEA-UNet的核心在于其多尺度特征提取注意力模块(Multi-scale Feature Extraction Attention, MFEA)。该模块通过在空间和通道两个维度上分别构建双通道路径,提取水下图像的浅层特征,并利用多尺度卷积和注意力机制显著增强图像特征的表达能力。MFEA模块在模型训练过程中能够突出重要特征,抑制无关特征,从而实现对图像细节的精准捕捉。
在编码器部分,MSEA-UNet采用了高效的卷积下采样模块(Convolutional Downsampling Module, ConvDown)。该模块在降低图像分辨率的同时,有效减少了信息丢失,同时降低了计算复杂度。此外,在网络的瓶颈部分嵌入了SimAM注意力模块,用于对特征进行自适应加权,进一步提升模型对关键信息的识别能力。
解码器部分则引入了多尺度并发空间与通道上采样模块(Multi-scale Concurrent Spatial and Channel Upsampling, MCSC-Up)。该模块的核心是多尺度并发空间与通道“Squeeze & Excitation”机制(MscSE),通过全局平均池化和最大池化的协同作用,以及通道和空间维度上的协同激励,实现对关键特征的增强和冗余信息的抑制。MCSC-Up不仅能够有效恢复图像的空间分辨率,还能保留上采样过程中可能丢失的细节,从而显著提升图像的局部细节和清晰度。
在模型的学习过程中,我们注意到大多数现有的水下图像增强模型仅依赖于卷积神经网络(CNNs),容易过度关注局部图像特征,如边缘和纹理信息,而忽略了全局特征的建模。为了解决这一问题,本文引入了视觉Transformer(ViT)的注意力机制,以提升模型对全局信息的捕捉能力。ViT的注意力机制能够确保对全局特征的稳健提取,从而弥补CNNs在全局建模方面的不足。
为了进一步结合CNNs和ViT的优势,本文提出了多头转置注意力聚合模块(Multi-head Transposed Attention Aggregation, MHTA)。该模块通过融合CNNs的局部特征提取能力和ViT的全局建模能力,实现对局部和全局特征的动态融合,从而在提升图像整体质量的同时,保留细节的清晰度。实验结果显示,MSEA-UNet在主观和客观评价指标上均达到了与当前最先进的UIE方法相当的水平,表现出更优越的增强效果。
本文的研究具有以下几个主要贡献:首先,提出了一个创新的端到端MSEA-UNet框架,能够同时实现丰富的多尺度特征表示、高质量的局部细节编码和高效的全局上下文建模;其次,在编码器的初始阶段引入了MFEA模块,通过空间和通道维度的多尺度卷积和注意力机制,实现对水下图像多尺度特征的全面提取;再次,设计了MCSC-Up模块,该模块通过MscSE机制,有效恢复图像的空间分辨率,同时保留上采样过程中可能丢失的细节,显著提升了图像的局部细节和纹理清晰度;最后,提出了MHTA模块,该模块结合了CNNs和ViT的优势,实现了局部与全局特征的动态融合,从而在提升图像整体质量的同时,保留了细节的清晰度。
为了验证MSEA-UNet的有效性,本文在两个主流数据集——UIEB和SUIM上进行了实验。UIEB数据集包含了890张真实水下图像及其高质量参考图像,本文从中随机选取了800对图像作为训练样本,其余90对用于测试,称为Test-U90。SUIM数据集则提供了更多的水下图像增强任务,包括不同光照条件和水下环境下的图像。实验结果表明,MSEA-UNet在多个评价指标上均优于现有方法,包括图像对比度、颜色校正和细节恢复等。
在实验设置中,本文还考虑了不同的增强任务和评估标准。例如,在主观评价方面,通过人工评估的方式比较了不同方法在增强后的图像质量,包括颜色准确性、对比度和清晰度等。在客观评价方面,使用了诸如PSNR(峰值信噪比)、SSIM(结构相似性指数)等指标来量化图像增强的效果。此外,还进行了消融实验,以验证各个模块对整体性能的贡献。实验结果表明,MFEA、ConvDown、MCSC-Up和MHTA模块的引入显著提升了MSEA-UNet的增强效果,证明了其在水下图像增强任务中的有效性。
本文的研究不仅为水下图像增强提供了一种新的解决方案,也为后续的水下视觉研究提供了重要的技术支持。MSEA-UNet通过整合多尺度特征提取、局部细节编码和全局上下文建模,能够在复杂水下环境中实现更高质量的图像增强,从而提升水下目标检测、图像分割和识别等任务的准确性。未来的工作可以进一步探索如何将MSEA-UNet与其他视觉任务相结合,如水下目标识别和分类,以拓展其应用范围。
总之,MSEA-UNet作为一种创新的水下图像增强网络,通过融合多尺度特征提取、局部细节编码和全局上下文建模,实现了对水下图像质量的全面提升。该方法在多个主流数据集上表现出色,验证了其在水下图像增强任务中的有效性。本文的研究为水下视觉研究提供了新的思路和技术手段,具有重要的理论和应用价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号