EDFusion:基于边缘引导的注意力机制和动态感受野,结合密集残差网络实现多焦点图像融合
《Image and Vision Computing》:EDFusion: Edge-guided attention and dynamic receptive field with dense residual for multi-focus image fusion
【字体:
大
中
小
】
时间:2025年10月09日
来源:Image and Vision Computing 4.2
编辑推荐:
多焦点图像融合方法提出边缘引导注意力和动态感受野密集残差模块,通过多尺度令牌混合Transformer和上下采样模块提升细节保留与边界清晰度,实验验证其优于现有方法。
在图像处理领域,随着光学成像技术的不断发展,多焦点图像融合(Multi-Focus Image Fusion, MFIF)作为一种关键技术,正逐步受到广泛关注。多焦点图像融合的核心目标是通过整合多个不同焦平面拍摄的图像,生成一幅具有全面清晰细节的合成图像。这一技术不仅能够提升图像的视觉质量,还能为后续的图像分析任务提供更可靠的数据基础,例如在医学影像、工业检测、显微成像以及国防军事等应用场景中发挥重要作用。
然而,尽管多焦点图像融合技术在多个领域展现出巨大的潜力,但现有的方法在保留图像边缘和纹理细节方面仍存在一定的局限性。这些细节对于图像的语义准确性和整体清晰度至关重要。因此,如何在融合过程中更有效地保留这些关键信息,成为当前研究的一个重要挑战。本文旨在通过提出一种结合边缘引导注意力机制和动态感受野密集残差连接的新型网络结构,解决这一问题,从而显著提升多焦点图像融合的效果。
在传统的多焦点图像融合方法中,主要分为基于变换域和基于空间域的两大类。基于变换域的方法通常包括多尺度分解、稀疏表示和梯度域处理等技术。这类方法虽然在处理多焦点图像方面具有较强的通用性,但其在融合过程中可能会导致边缘模糊、高频细节丢失以及重建后的图像出现失真和边缘伪影等问题。另一方面,基于空间域的方法则通常包括像素级、块级和区域级的处理方式。虽然这类方法在计算效率上具有优势,但由于直接在像素层面进行操作,其效果高度依赖于对源图像的精确分割。如果分割块的尺寸过小,可能导致聚焦区域的识别不够准确;而如果块的尺寸过大,则可能产生块效应和边界模糊的问题。此外,这些方法在处理图像中不同区域之间的空间关系时存在不足,容易在聚焦与非聚焦区域的交界处出现不连续的伪影,尤其是在低对比度区域,这一问题更为突出。
随着计算机视觉和深度学习技术的迅速发展,多焦点图像融合的研究也经历了一次深刻的范式转变。当前的深度学习方法主要分为判别模型和生成模型两大类。判别模型通常采用三阶段处理框架,包括像素级编码、清晰度判断和选择性重建。这类方法能够较为有效地保持源图像的细节和清晰度,但其依赖于人工设计的融合规则,这在处理复杂的边界区域时可能产生判断错误,进而影响融合效果。而生成模型则通过构建端到端的映射网络,直接合成融合图像,利用对抗训练或变分推理等技术实现更自然的过渡效果。虽然生成模型在减少边界伪影方面表现出色,但由于其生成过程的不可逆性,可能会导致高频细节的丢失以及局部区域的失真。
为了克服传统方法和现有深度学习方法在多焦点图像融合中的不足,本文提出了一种新的融合框架,该框架融合了边缘引导注意力机制和动态感受野密集残差连接。这一框架采用了类似U-Net的编码器-解码器结构,能够有效地进行多尺度特征提取和融合。在编码器部分,网络首先对输入的图像对(A和B)进行多级、多尺度的特征提取,实现空间压缩和通道扩展。通过三层下采样,网络能够逐步提取图像的深层次特征,同时保持对细节信息的捕捉能力。
在特征提取过程中,本文设计了一种动态感受野密集残差块(Dynamic Receptive Field Dense Residual Block, DRF-DRB)。该模块通过动态调整膨胀卷积的膨胀率,灵活地改变感受野的大小,从而实现对多尺度特征的高效提取。此外,模块内部的密集残差连接能够促进浅层细节特征与深层语义特征的融合,提升网络的整体性能。
为了进一步优化融合过程,本文引入了边缘引导融合模块(Edge-Guided Fusion Module, EGFM)。该模块通过生成通道特征的重要性权重图,引导网络在融合浅层细节和深层语义时更加关注边缘信息。这种机制能够有效减少融合过程中可能出现的边缘模糊问题,从而提升合成图像的清晰度和细节保留能力。
在处理多尺度语义信息时,本文设计了一种多尺度令牌混合变压器(Multi-Scale Token Mixing Transformer, MSTM-Transformer)。与传统的Transformer结构不同,该模块在单个注意力层中引入了深度可分离卷积,从而降低了计算复杂度。同时,通过混合不同膨胀率提取的多尺度令牌,该模块能够实现跨尺度的语义信息交互,提升网络对全局信息的理解能力。
在图像上采样阶段,本文提出了一个经过优化的多尺度上下文增强模块(Multi-Scale Context Upsampling Module, MSCU)。该模块结合了通道混洗机制和多尺度特征处理,能够有效增强细节保留和边缘清晰度。通过这种结构,网络能够在生成最终融合图像时,更好地恢复高频细节,提升图像的整体质量。
为了验证所提出方法的有效性,本文在五个公开数据集上进行了广泛的实验评估,并与十二种当前最先进的方法进行了对比。实验结果表明,无论是从定量还是定性角度分析,所提出的方法在融合性能上均显著优于现有方法。特别是在Lytro数据集上,该方法在八个核心指标中均取得了最优成绩,其中信息保留指标(Q_NMI)达到了1.1946,边缘信息保真度指标(Q_AB/F)达到了0.7629,这充分证明了其在多焦点图像融合任务中的优越表现。
此外,本文还通过设计一个系统化的数据合成方法,基于Pascal VOC 2012数据集构建了适用于多焦点图像融合的训练数据集。该方法首先将原始图像统一调整为256×256的分辨率,以满足计算需求。随后,利用不同参数的高斯滤波器生成多级模糊图像,从而更真实地模拟实际拍摄过程中不同焦平面的成像效果。这一数据集的构建为模型的训练和评估提供了高质量的基准数据,有助于进一步提升融合算法的性能。
在本文的研究中,作者们还详细探讨了网络结构的设计理念以及各个模块的实现方式。通过对边缘引导注意力机制、动态感受野密集残差连接和多尺度令牌混合变压器的深入分析,本文为多焦点图像融合领域提供了一种全新的解决方案。这一方案不仅能够有效保留图像的边缘和纹理细节,还能够在减少计算复杂度的同时,提升图像的语义准确性和整体清晰度。
综上所述,本文的主要贡献在于:首先,提出了一种新的边缘引导注意力机制(Edge-Guided Attention, EGA),专门用于多焦点图像融合任务,能够动态生成每个特征通道的空间重要性图,从而更精确地建模聚焦与非聚焦区域的边界;其次,设计了一种动态感受野密集残差块(DRF-DRB),通过调整膨胀卷积的膨胀率实现多尺度特征的自适应提取,并利用密集残差连接促进浅层细节与深层语义的融合;最后,提出了一种多尺度令牌混合变压器(MSTM-Transformer),在单个注意力层中引入深度可分离卷积,降低计算复杂度,同时通过混合不同膨胀率提取的多尺度令牌,实现跨尺度的语义信息交互。这些创新性的设计和方法,为多焦点图像融合技术的发展提供了新的思路和实践基础。
本文的研究不仅在理论层面为多焦点图像融合提供了新的视角,也在实际应用中展示了其卓越的性能。通过系统化的实验设计和严谨的对比分析,本文验证了所提出方法在多焦点图像融合任务中的有效性。同时,本文还强调了边缘信息在图像融合中的重要性,指出在融合过程中,如何有效地保留和增强边缘信息,是提升融合图像质量的关键所在。
多焦点图像融合技术的持续发展,对于推动图像处理和计算机视觉领域的进步具有重要意义。未来的研究方向可能包括进一步优化网络结构,以提升融合效率和图像质量;探索更高效的数据合成方法,以生成更具代表性的训练数据;以及研究如何将多焦点图像融合技术与其他图像处理技术相结合,如图像超分辨率、图像去噪等,从而实现更全面的图像增强和分析。此外,随着深度学习技术的不断演进,如何在实际应用中更好地适应不同的成像条件和图像内容,也将成为未来研究的重要课题。
总之,本文提出了一种基于边缘引导注意力和动态感受野密集残差连接的多焦点图像融合方法,通过多尺度特征提取、跨尺度语义交互和高效上下文增强,显著提升了融合图像的清晰度和细节保留能力。该方法在多个公开数据集上的实验结果表明,其在多焦点图像融合任务中具有较高的性能和应用价值,为相关领域的研究和实践提供了新的思路和技术支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号