
-
生物通官微
陪你抓住生命科技
跳动的脉搏
自蒸馏引导的语义知识反馈网络在红外-可见光图像融合中的应用与突破
【字体: 大 中 小 】 时间:2025年05月27日 来源:Image and Vision Computing 4.2
编辑推荐:
推荐 为解决传统红外-可见光图像融合方法中语义信息不足的问题,研究人员提出了一种自蒸馏引导的语义知识反馈(SKFFusion)网络。该网络通过浅层到深层特征融合模块和知识反馈机制,显著提升了融合图像的视觉质量和语义一致性,在低光和雾天等复杂场景下表现尤为出色,对自动驾驶和目标检测等领域具有重要意义。
论文解读
红外-可见光图像融合技术通过整合两种模态的互补信息,旨在提升图像的视觉质量并支持下游视觉任务。然而,现有方法在增强语义信息时,往往仅关注源图像的融合函数设计,忽略了融合图像本身的优化与指导。这种忽视导致融合图像中的语义知识不足,难以与任务目标对齐,从而限制了其在下游任务中的准确性。为克服这些局限性,国内的研究人员提出了自蒸馏引导的语义知识反馈(SKFFusion)网络。该网络通过从融合图像中提取语义知识并反馈以迭代优化融合过程,解决了语义指导不足的问题。
SKFFusion网络引入了浅层到深层特征融合模块,包括浅层纹理融合(STF)和深层语义融合(DSF),分别用于整合细粒度的细节信息和高级语义信息。STF利用通道和空间注意力机制聚合多模态的详细信息,而DSF则采用Mamba结构捕捉长距离依赖关系,实现更深层次的跨模态语义融合。此外,研究人员设计了一个基于CNN-Transformer的知识反馈网络(KFN),用于提取局部细节特征并捕捉全局依赖关系。语义注意力引导(SAG)进一步细化了融合图像的语义表示,使其与任务目标对齐。最后,通过蒸馏损失提供更稳健的训练,确保了卓越的图像质量。
在实验部分,研究人员首先描述了SKFFusion的实验设置和实现细节。他们在多个数据集上进行了定性和定量比较,评估了融合结果在像素级上的表现。随后,研究人员进一步评估了融合图像在语义分割和目标检测等语义层面的性能。最后,通过消融研究验证了模型的有效性。实验结果表明,SKFFusion在视觉质量和视觉任务性能方面均优于现有方法,特别是在低光和雾天等具有挑战性的条件下表现尤为突出。
SKFFusion的创新之处在于其独特的语义驱动融合架构。该架构首次将传统源图像的语义特征表示转移到融合图像的语义增强中,将语义知识无缝集成到融合流程中,使融合图像与下游视觉任务对齐。双重输入特征融合结合了STF和DSF模块,既聚合了浅层纹理信息,又增强了深层语义信息,提升了整体融合质量。通过知识反馈机制,KFN引入了一种新颖的反馈机制,利用Dinov2注入语义先验,弥合了语义对齐中的差距。全面评估表明,SKFFusion在视觉质量和评估指标上达到了最先进的水平,显著提高了视觉质量,满足了先进视觉模型的标准。
在方法部分,研究人员详细解释了所提出的SKFFusion网络及其损失函数。他们首先概述了融合框架的关键组件及其相互作用,然后通过源图像语义注入和融合图像语义蒸馏两种方法增强了融合图像的语义信息。最后,研究人员深入分析了模型的各个组成部分,确保其在不同场景下的适用性和鲁棒性。
结论部分总结了SKFFusion的主要贡献。研究人员利用STF和DSF模块捕获多模态图像的浅层和深层特征,将深层语义信息注入浅层特征中,有效突出语义目标。为了解决像素级语义信息的局限性,研究人员设计了KFN模块,包括RB、Dinov2和SAG,进一步细化了融合图像的语义表示。通过自我蒸馏机制,SKFFusion在训练过程中提取语义知识,减少了推理过程中所需的参数数量,优化了性能。实验结果表明,SKFFusion在视觉质量和视觉任务性能方面均取得了显著进展,特别是在复杂场景下表现出色。
这项研究不仅在技术上实现了突破,还为红外-可见光图像融合的实际应用提供了新的思路。通过提升融合图像的语义质量,SKFFusion在自动驾驶、目标检测和语义分割等领域具有广泛的应用前景。研究人员的工作为未来的图像融合技术发展奠定了坚实的基础,并为相关领域的研究人员提供了宝贵的参考。
生物通微信公众号
知名企业招聘