基于度量学习的交叉注意力关系网络,用于少样本特定发射体识别

【字体: 时间:2025年11月08日 来源:Pattern Recognition 7.6

编辑推荐:

  针对语义对应中大规模类内差异问题,提出点至图像匹配框架KPLNet,构建全局关键点原型库,结合非参数和监督方法,在SPair-71k数据集上达到94.9% PCK@0.1精度。

  
金海龙|李慧英
机构:吉林大学,计算机科学与技术学院,城市:长春,邮编:130012,国家:中国

摘要

近期在语义对应关系方面的进展利用了预训练的大规模视觉模型,因为它们具有强大的特征提取能力。然而,现有方法通常直接将这些特征应用于图像到图像的匹配中,这在具有较大类内变异的复杂场景中面临挑战。为了解决这个问题,我们通过将问题从图像到图像的匹配转变为点到图像的匹配来重新构建问题,提供了一种更有效的利用提取的图像特征的范式。我们介绍了KPLNet,该框架旨在学习所有训练实例中关键点特征的原型分布。为了增强关键点表示,我们同时利用了实例间和实例内的关键点特征。我们为所有关键点构建了一个全局关键点原型库(KPBook),使用学习到的原型来预测目标图像中的对应关键点,从而实现无需依赖源图像的零图像匹配。我们在非参数设置中测试了我们的方法,并将其扩展到具有可学习参数的监督设置中。在SPair-71k数据集上的实验结果表明,我们的非参数方法与监督方法的表现相当,而我们的监督方法进一步超越了之前的方法,在PCK@0.1指标上达到了94.9%的成绩。

引言

语义对应关系涉及在同一类别内的图像对之间建立对应关系,是计算机视觉中的一个基本任务。它可以促进许多其他任务,如3D视觉[1]、[2]、对象跟踪[3]、[4]、[5]和图像编辑[6]、[7]。尽管最近在大型基础模型(如DINOv2[8]和Stable Diffusion(SD)[9])方面取得了进展,这些模型显著提高了语义对应关系的性能[10]、[11]、[12],但建立可靠的对应关系仍然具有挑战性,尤其是在处理较大的类内变异时。
大型基础模型的最新进展使得无需额外训练即可有效提取图像特征[10]、[12]。例如,DIFT[13]从SD模型中提取中间层特征图以建立两个图像之间的对应关系。类似地,SD+DINO[10]结合了SD和DINOv2模型的特征来建立准确的对应关系。GeoAware-SC[12]通过加入测试时的自适应姿态对齐进一步增强了SD+DINO的性能,以提高对几何结构的感知能力。然而,这些方法通常依赖于直接使用提取的图像特征图来建立对应关系,这在处理较大的类内变异时存在挑战。
我们观察到,较大的类内变异会导致关键点特征分布中出现多个不同的簇,这使得使用单个源图像的特征难以有效处理这些变异。为了克服这一挑战,我们将问题从图像到图像的匹配重新构建为更灵活的点到图像的匹配范式。通过这样做,我们摆脱了使用单个源图像的限制,能够更广泛地考虑特征空间。我们的方法不是依赖于单个图像的特征,而是为整个训练数据集中的每个关键点学习一个关键点原型的分布。然后使用这些原型来识别目标图像中最相关的关键点,而无需源图像,如图1所示。这种方法不仅提高了处理较大类内变异的鲁棒性,还通过消除推理过程中对参考图像的需求提高了效率。
具体来说,我们介绍了KPLNet,这是一个新颖的非参数语义对应关系框架,它同时捕获了实例间和实例内的关键点特征。该过程从从训练样本中提取关键点特征开始,构建基于特征的训练数据集。然后我们采用无监督学习方法为每种关键点类型建模原型分布,创建一个包含所有关键点原型分布的全局KPBook。这些原型通过最近邻搜索用于目标图像匹配。此外,我们通过微调主干网络并加入ResNet模块将我们的方法扩展到监督设置中,从而显著提高了性能。
我们的主要贡献可以总结如下:
  • 我们将语义对应关系问题从图像到图像的匹配任务重新构建为点到图像的匹配任务。我们提出的匹配范式为有效利用关键点特征提供了更多的灵活性。
  • 我们介绍了KPLNet,这是一个新颖的框架,它利用了实例间和实例内的关键点特征,展示了其在非参数和监督设置中的多功能性和强大性能。
  • 广泛的实验证明了我们方法的有效性。我们的非参数方法与监督方法的表现相当,而我们的监督方法相比最先进的方法提高了11.7%。
  • 相关工作

    相关工作

    语义对应关系。语义对应关系方法大致可以分为两类:基于相关性的方法[14]、[15]、[16]和基于特征的方法[17]、[18]、[19]。基于相关性的方法侧重于设计解码器来细化图像之间的初始相关图。例如,NCNet[14]引入了一个4D卷积神经网络来学习空间上一致的对应关系,而CATs[16]结合了自注意力机制和多尺度

    方法

    在本节中,我们首先定义了我们提出的点到图像匹配范式。接下来,我们概述了图2中展示的非参数语义对应关系框架的流程。最后,我们介绍了我们扩展的监督语义对应关系框架。

    实验

    数据集。我们在两个公开可用的基准数据集上进行实验:PF-PASCAL[27]和SPair-71k[28]。PF-PASCAL包含来自20个类别的1,351对图像。相比之下,SPair-71k提供了一个更具挑战性的评估,其中包含来自18个类别的70,958对图像,这些图像具有显著的类内变异,用于测试我们方法的鲁棒性和泛化能力。
    指标。我们使用正确关键点的百分比(PCK)作为评估指标

    结论

    在本文中,我们解决了语义对应关系中长期存在的较大类内变异问题。为了解决这个问题,我们将语义对应关系任务从图像到图像的匹配问题重新构建为点到图像的匹配问题。我们引入了一个名为KPLNet的新框架,该框架利用了实例间和实例内的关键点特征。我们采用非参数方法从训练样本中学习原型分布,最终

    CRediT作者贡献声明

    金海龙:撰写——原始草稿、方法论、调查、概念化。李慧英:撰写——审阅与编辑、验证、监督、资源获取、资金获取。

    利益冲突声明

    作者声明他们没有已知的可能会影响本文所述工作的竞争性财务利益或个人关系。

    致谢

    本研究得到了中国吉林省科学技术发展计划(项目编号20230201089GX)的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 急聘职位
    • 高薪职位

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号