DPFFusion:面向红外与可见光图像融合的双域并行特征融合网络
《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:DPFFusion: A Dual-Domain Parallel Feature Fusion Network for Infrared and Visible Image Dual-Domain Fusion
【字体:
大
中
小
】
时间:2025年12月16日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4
编辑推荐:
为解决红外与可见光图像双域融合中存在的空间域特征提取适应性差、频域幅相谱处理独立导致纹理结构失配、跨域交互机制缺失引发特征冲突等问题,研究人员开展了DPFFusion主题研究。该研究提出双模态细化模块(DMRM)增强不规则边缘响应,构建幅相协同融合模块(APSFM)建立跨模态关联,引入跨域动态注意力(CDFM)解决域间冲突。实验表明该方法在M3FD数据集上互信息(MI)提升28.9%,推理速度达28ms/帧,参数仅0.14M,显著提升了下游目标检测任务性能。
在计算机视觉领域,红外与可见光图像融合一直是个充满挑战的课题。想象一下,在浓雾弥漫的夜晚,自动驾驶汽车需要同时"看清"热辐射目标(如行人、车辆)和道路纹理细节——这正是红外与可见光图像融合技术要解决的核心问题。红外图像能穿透烟雾突出热目标,但缺乏纹理细节;可见光图像纹理丰富,却在恶劣天气下严重退化。传统方法如多尺度变换(MST)和稀疏表示(SR)依赖人工设计特征,难以适应复杂场景。而现有深度学习模型如SFDFusion虽探索了空频域结合,仍存在三大瓶颈:固定卷积核难以捕捉不规则边缘、幅相谱独立处理导致纹理失配、跨域交互缺失引发特征冲突。
针对这些难题,澳门城市大学李申智博士团队在《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》上发表了创新性研究成果。他们提出的DPFFusion网络采用"解耦-关联"的双域融合范式,通过三个核心突破实现了性能飞跃:可变形卷积动态适应边缘几何形状、通道注意力建模幅相谱物理关联、混合注意力机制协调跨域特征。这项研究不仅为多模态感知提供了新思路,更在自动驾驶、安防监控等领域展现出巨大应用潜力。
关键技术方法主要包括:1)基于可变形卷积的双模态细化模块(DMRM)实现自适应特征提取;2)结合快速傅里叶变换(FFT)的幅相协同融合模块(APSFM)进行频域分解与重构;3)采用混合注意力的跨域融合模块(CDFM)实现多尺度特征集成。实验数据来自M3FD、MSRS和RoadScene三个基准数据集,包含不同光照和天气条件下的对齐图像对。
DPFFusion采用双分支并行架构,同时处理空间域和频率域信息。如图1所示,网络接收红外(Iir)和可见光(Ivis)输入,通过并行的空间路径和频率路径处理特征,最后通过跨域融合模块生成融合图像Ifus。这种设计突破了传统串行处理的局限,实现真正的域间协同优化。
空间域分支的核心创新是双模态细化模块(DMRM)。如图2所示,该模块通过可变形卷积动态调整采样点偏移量Δpk,使卷积核能自适应贴合不规则边缘轮廓。同时结合高斯-拉普拉斯算子进行多尺度边缘提取,并利用通道注意力门控机制抑制特征冗余。定量实验表明,该设计使不规则边缘响应强度提升58%,显著改善了道路裂缝、树枝等复杂结构的特征保持能力。
频率域处理的重大突破体现在幅相协同融合模块(APSFM)。如图3所示,该模块通过2D FFT将图像分解为幅度谱(AMP)和相位谱(PHA),分别对应纹理细节和结构信息。创新性地引入相位校正项Pircorr=CAM(PHAir)?PHAvis,通过通道注意力显式建模跨模态关联。这种协同机制使频率能量比(FER)降低15.2%,有效解决了传统方法中纹理-结构失配的问题。
如图4所示,跨域融合模块(CDFM)采用混合注意力机制解决域间特征冲突。通过特征拼接Fconcat=[Fspatial_ir∥F<>∥Ffreq]形成综合多域表示,结合空间注意力和通道注意力进行特征重校准,最后利用膨胀卷积金字塔实现多尺度上下文融合。该设计使互信息(MI)在RoadScene数据集上提升37.8%,证明其出色的域间协调能力。
在三个基准数据集上的全面评估证实了DPFFusion的卓越性能。如表II所示,在M3FD数据集上互信息(MI)达到6.042,比SFDFusion提升28.9%;视觉保真度(VIF)指标提升25.8%。特别是在RoadScene数据集(表IV)上,Qabf指标提升39.2%,表明边缘保持能力显著增强。图5的定性对比显示,在雨雾等恶劣条件下,DPFFusion能同时保持热目标显著性和道路纹理细节。
如表VI所示,将融合结果用于目标检测任务时,DPFFusion在车辆检测和行人检测上分别达到0.821和0.793的mAP,整体性能提升1.5%。图6的详细对比表明,该方法在保持梯度幅度(0.85-0.92)方面显著优于对比方法,证明其生成的特征具有更好的语义丰富性。
图8展示了损失函数的优化过程,揭示了三个明显的训练阶段:0-50轮频域损失(Lfreq)快速下降,实现频谱对齐;50-150轮内容损失(Lcontent)通过边缘感知优化逐步细化;150-200轮联合稳定阶段,总损失稳定在10-2量级。这种协调下降说明DPFFusion能同时保持96.3%的低频结构和89.7%的高频纹理。
如表VIII所示,DPFFusion在Jetson AGX Xavier上实现28ms/帧的实时推理,参数仅0.14M,比SFDFusion轻量3.7倍。这种高效性源于深度可分离卷积和混合注意力机制的协同优化,使其更适合边缘设备部署。
研究也识别出两个主要局限:在照度低于5lux的极端低光场景下,Qabf指标下降8%;在混合噪声条件下MI下降6.5%。未来工作将探索自适应噪声建模、频域特征量化和视频融合扩展等方向。
这项研究通过双域并行架构系统解决了IVIDF领域的三大核心矛盾:规则卷积核与不规则边缘的矛盾、幅相谱独立与关联的矛盾、实时性与精度的矛盾。其创新性不仅体现在技术突破,更在于为多模态感知提供了可解释的融合范式,对自动驾驶、智能监控等安全关键领域具有重要实践价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号