TSDGFusion：基于文本与语义双引导的红外与可见光图像融合模型及其在下游任务中的优势

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Displays》：TSDGFusion: A text and semantic dual-guided model for infrared and visible image fusion

【字体：大中小】 时间：2025年10月27日 来源：Displays 3.4

编辑推荐：

　　本文提出了一种创新的文本与语义双引导模型（TSDGFusion），通过结合BLIP编码器的文本嵌入、交叉注意力引导模块（CAGM）和多尺度池化操作，显著提升了红外与可见光图像融合的语义准确性和视觉质量。该模型创新性地引入文本信息增强模块（TIEM）缓解长程依赖问题，并利用分割网络的结构/语义损失函数强化约束，在TNO、RoadScene和M3FD数据集上全面超越七种主流深度学习方法，同时在下游任务（如目标检测和语义分割）中验证了其实用价值。

^{Section snippets}

^{Related work}

本节介绍了基于深度学习的图像融合算法的研究现状，并对Transformer（变换器）和任务驱动型图像融合的相关工作进行了讨论与分析。

^Method

本节详细阐述了TSDGFusion的模型架构（第3.1部分）及其损失函数设计细节（第3.2部分）。

^Experiments

本节首先介绍了实验细节（第4.1部分）及相关图像评估指标，随后在TNO、RoadScene和M3FD数据集上与其他七种基于深度学习的融合方法进行了定性和定量对比实验（第4.2部分），并在第4.3部分对提出的模型进行了消融实验以验证其有效性。

^Conclusion

本文提出了一种基于文本和语义信息双引导的红外与可见光图像融合模型。该模型包含融合网络和分割网络两部分。在融合网络中，使用参数冻结的BLIP（Bootstrapping Language-Image Pre-training）编码器对文本信息进行编码，并设计了交叉注意力引导模块（CAGM）来指导红外与可见光图像的融合过程。同时，采用多尺度池化操作通过...

热点排行

新闻专题

联系信箱：

粤ICP备09063491号