
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于尺度感知表征学习的红外与可见光图像融合方法SARLFuse研究
【字体: 大 中 小 】 时间:2025年06月26日 来源:Displays 3.7
编辑推荐:
针对多模态图像融合中全局依赖与局部特征利用不足、模态差异处理欠佳等问题,研究人员提出尺度感知表征网络SARLFuse,通过SARM模块提取多尺度特征,结合FCFM(交叉注意力)和DEFM双模块策略优化模态互补性与细节增强。实验验证其在公共数据集上超越主流方法,并提升语义分割性能,为复杂场景信息整合提供新思路。
在复杂场景感知领域,红外与可见光图像的融合技术至关重要。红外传感器能捕捉物体的热辐射特征,而可见光传感器则擅长记录纹理细节,两者结合可显著提升目标检测、语义分割等高级视觉任务的性能。然而,现有融合方法面临三大瓶颈:一是卷积神经网络(CNN)难以兼顾全局语义与局部细节,Transformer虽弥补了全局建模能力却易丢失局部信息;二是多数方法仅依赖深层特征,忽视中间层的空间细节;三是简单的特征拼接或求和操作无法有效协调模态差异,导致融合图像出现边缘伪影。
为解决这些问题,中国的研究团队提出了一种名为SARLFuse的创新框架。该研究发表于《Displays》,其核心是通过尺度感知表征模块(SARM)整合多尺度卷积与Transformer,同步提取局部特征和全局上下文信息。针对模态差异,团队设计了双模块融合策略:特征互补融合模块(FCFM)利用交叉注意力强化模态间互补性,细节增强融合模块(DEFM)则通过残差学习平衡域差异。实验表明,SARLFuse在三个公共数据集上均优于11种主流方法,且能显著提升下游语义分割任务的精度。
关键技术方法
研究采用多尺度特征提取策略,通过1×1卷积将输入图像映射至高维空间,经SARM模块分三尺度(通道数48/92/196)处理。FCFM模块通过交叉注意力机制交互红外与可见光特征,DEFM则采用残差结构细化融合特征。模型训练使用公开数据集,并通过定量指标(如互信息、结构相似性)与视觉对比验证效果。
研究结果
结论与意义
SARLFuse通过尺度感知表征与双模块融合策略,首次在统一框架内解决了多尺度特征利用不足、模态差异协调困难等关键问题。其创新性体现在:SARM模块突破传统CNN-Transformer的局限性;FCFM与DEFM的协同设计为多模态融合提供了可扩展的范式。该研究不仅推动了图像融合技术的发展,还为自动驾驶、夜间监控等实际应用提供了更鲁棒的视觉数据支持。未来工作可进一步探索动态尺度调整与轻量化部署,以适配更多实时场景。
生物通微信公众号
知名企业招聘