TSDGFusion:基于文本与语义双引导的红外与可见光图像融合模型及其在下游任务中的优势
《Displays》:TSDGFusion: A text and semantic dual-guided model for infrared and visible image fusion
【字体:
大
中
小
】
时间:2025年10月27日
来源:Displays 3.4
编辑推荐:
本文提出了一种创新的文本与语义双引导模型(TSDGFusion),通过结合BLIP编码器的文本嵌入、交叉注意力引导模块(CAGM)和多尺度池化操作,显著提升了红外与可见光图像融合的语义准确性和视觉质量。该模型创新性地引入文本信息增强模块(TIEM)缓解长程依赖问题,并利用分割网络的结构/语义损失函数强化约束,在TNO、RoadScene和M3FD数据集上全面超越七种主流深度学习方法,同时在下游任务(如目标检测和语义分割)中验证了其实用价值。
本节介绍了基于深度学习的图像融合算法的研究现状,并对Transformer(变换器)和任务驱动型图像融合的相关工作进行了讨论与分析。
本节详细阐述了TSDGFusion的模型架构(第3.1部分)及其损失函数设计细节(第3.2部分)。
本节首先介绍了实验细节(第4.1部分)及相关图像评估指标,随后在TNO、RoadScene和M3FD数据集上与其他七种基于深度学习的融合方法进行了定性和定量对比实验(第4.2部分),并在第4.3部分对提出的模型进行了消融实验以验证其有效性。
本文提出了一种基于文本和语义信息双引导的红外与可见光图像融合模型。该模型包含融合网络和分割网络两部分。在融合网络中,使用参数冻结的BLIP(Bootstrapping Language-Image Pre-training)编码器对文本信息进行编码,并设计了交叉注意力引导模块(CAGM)来指导红外与可见光图像的融合过程。同时,采用多尺度池化操作通过...
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号