基于空间-频率深度融合的RGB-热成像语义分割方法研究

【字体: 时间:2025年06月20日 来源:Image and Vision Computing 4.2

编辑推荐:

  为解决RGB-热成像(RGB-T)语义分割中空间域融合策略忽略频域互补特性的问题,研究人员提出空间-频率深度融合网络(SFDFNet),通过双流架构增强模态特征表达,结合特征增强模块(DFEM)和空间-频率融合模块(SFFM),在多个数据集上实现性能突破,为复杂环境下的视觉感知提供新思路。

  

在复杂光照条件下,如低光或过曝环境,传统RGB图像的语义分割性能显著下降,而热成像(Thermal)模态因对光照变化不敏感展现出独特优势。然而,现有RGB-热成像(RGB-T)语义分割方法多依赖空间域融合策略,忽视了两种模态在频域的互补特性。通过频域分析发现,热成像富含低频全局结构信息,而RGB图像的高频细节更丰富。如何有效融合这两种特性成为提升分割精度的关键挑战。

针对这一问题,中国的研究团队提出了一种创新性的空间-频率深度融合网络(Spatial-Frequency Deep Fusion Network, SFDFNet)。该网络采用双流架构分别处理RGB和热成像模态,核心模块包括:1)差异性特征增强模块(Distinctive Feature Enhancement Module, DFEM),通过强化模态特异性特征提升表征能力;2)浅层特征融合模块(Feature Fusion Module, FFM)实现模态间高效交互;3)空间-频率融合模块(Spatial-Frequency Fusion Module, SFFM)结合空间结构依赖与频域高低频解耦策略,避免盲目融合。实验表明,SFDFNet在MFNet、FMB和PST900等数据集上均达到最优性能,mIoU(mean Intersection over Union)指标显著超越现有方法。

关键技术方法包括:1)基于Fast Fourier Transform(FFT)的频域分布分析;2)双流编码器架构;3)DFEM模块的跨模态注意力机制;4)SFFM模块的空间-频域分支协同设计。研究采用公开数据集验证性能,并通过RGB-D数据集(NYU Depth V2、SUN RGB-D)验证方法泛化性。

Multi-modal semantic segmentation
研究指出,现有方法如CMX和Sigma虽在空间域交互上取得进展,但计算成本高且忽略频域潜力。通过频域可视化实验证实RGB与热成像模态的频谱分布差异:热成像集中于低频(全局结构),RGB集中于高频(局部细节)。

Methodology
SFDFNet的DFEM模块通过通道注意力增强模态特异性特征,FFM模块采用轻量级卷积实现浅层特征交互。SFFM模块的创新性在于:频域分支通过FFT/IFFT分离高低频成分,空间分支捕获长程依赖,最终通过交叉注意力融合两类特征。

Experiments
在MFNet数据集上,SFDFNet的mIoU达58.7%,较基线模型提升4.2%。频域消融实验显示,单独使用高频(RGB)或低频(Thermal)均导致性能下降,验证互补融合的必要性。

Discussion
研究承认计算复杂度增加和频域利用深度不足的局限性,但强调频域分析为多模态分割提供了新范式。伦理方面建议未来应用需考虑热成像的隐私风险。

Conclusion
SFDFNet通过空间-频域协同融合,首次系统探索了RGB-T分割的频域潜力,为复杂环境感知任务树立了新基准。其双流架构和模块化设计可扩展至其他多模态场景,如RGB-D(深度)分割。

(注:全文细节均来自原文,未添加外部信息;专业术语如FFT/IFFT首次出现时已标注解释;作者单位按要求处理;技术方法描述未涉及试剂等实验细节。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号