CLIPFusion:基于图像 - 文本大模型与自适应学习的红外与可见光图像融合新突破

【字体: 时间:2025年05月08日 来源:Displays 3.7

编辑推荐:

  为解决红外与可见光图像融合中缺乏真实标签、损失函数设计受主观影响等问题,研究人员开展基于图像 - 文本大模型的 CLIPFusion 研究。结果显示该模型在多场景融合任务中表现优异,提升了融合图像质量,为相关领域应用提供有力支持。

  
随着科技的不断进步,传感器技术在人们感知环境的过程中发挥着重要作用。不过,单一传感器存在诸多局限性,无法全面描述场景信息。在众多图像融合技术里,红外图像和可见光图像融合应用最为广泛。可见光图像虽然能获取丰富的色彩和详细的背景信息,但很容易受到光线、烟雾等不利因素的干扰;而红外图像虽然抗干扰能力强,在极端环境下表现稳定,却丢失了不产生热辐射物体的颜色和详细背景信息。

在这样的背景下,传统的图像融合算法应运而生。这些算法通常依据不同的分解规则,对输入的可见光和红外图像进行分解,然后针对人工分解得到的不同层制定融合规则,从而获得融合图像。然而,由于人类认知的固有局限,传统算法普遍缺乏强大的泛化能力。

随着人工智能技术的发展,深度学习在图像融合领域得到了广泛应用,主要分为基于自动编码器(AE)、卷积神经网络(CNN)和生成对抗网络(GAN)这三类方法 。尽管深度学习推动了图像融合算法的显著进步,但仍面临两大关键挑战:一是在红外 - 可见光图像融合任务中,由于缺乏真实标签,损失函数的设计受人为主观判断影响较大,导致不同方法生成的融合图像往往仅在特定场景下表现良好,泛化能力受限;二是现有的多模态特征融合方法依赖精心设计的融合规则,这些规则存在主观偏差,难以灵活适应复杂多变的现实应用场景。

为了解决这些问题,国内研究人员开展了基于图像 - 文本大模型 CLIP 的图像融合网络(CLIPFusion)研究。该研究成果发表在《Displays》上,为红外与可见光图像融合领域带来了新的突破。

研究人员采用了以下几种关键技术方法:首先,设计了基于图像 - 文本大模型的提示生成网络,通过在大模型潜在空间中约束单模态图像提示和融合图像提示与对应图像的距离,学习不同类型图像的文本提示;其次,提出自适应迭代优化框架,利用不同阶段生成的融合图像自适应微调提示文本;最后,设计基于 3D 卷积的自适应图像融合网络,通过 3D 卷积自适应学习红外和可见光特征之间的相关性。

研究结果


  1. 提示生成网络训练:通过训练提示生成网络,学习到了低质量单模态图像和高质量融合图像的描述。这一过程解决了红外与可见光图像融合任务中缺乏真实标签监督的问题,网络在大图像 - 文本模型的潜在空间中约束可学习提示与相应图像的距离,进而生成文本标签。
  2. 融合图像生成网络训练:利用提示生成网络得到的各种提示来约束融合过程,训练融合图像生成网络。在这个阶段,研究人员使用了基于 3D 卷积的自适应图像融合网络,该网络通过学习探索多模态信息之间的相关性,避免了手动定义融合规则,进一步减少了融合图像生成过程中的主观干扰。
  3. 提示微调与融合图像质量提升:使用生成的融合图像对提示进行微调,通过自适应迭代优化框架,根据不同阶段生成的融合图像自适应地改进提示文本的准确性,从而逐步提高融合图像的质量。

研究结论与讨论


研究人员提出的 CLIPFusion 框架,成功地解决了红外与可见光图像融合任务中的关键问题。通过建立提示生成网络、自适应迭代优化提示文本以及设计基于 3D 卷积的自适应融合网络,该模型在军事场景、自动驾驶场景和暗光场景的红外 - 可见光图像融合任务中,展现出良好的视觉效果和定量指标,同时在多聚焦图像融合和医学图像融合任务中也具备出色的泛化能力。

CLIPFusion 的重要意义在于,它不再依赖手动定义的图像损失函数,确保了模型在不同场景下的泛化能力。其自适应学习的特性,有效减少了融合过程中的主观干扰,提高了融合图像的质量。这一研究成果为自动驾驶、军事侦察、故障诊断等领域提供了更可靠、高质量的图像融合技术支持,推动了相关领域的进一步发展,在图像融合领域具有重要的理论和实践价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号