基于清洁样本的跨模态检索与自适应加权对比学习

《Engineering Applications of Artificial Intelligence》:Clean-sample guided cross-modal retrieval with adaptive weighted contrastive learning

【字体: 时间:2025年09月27日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  开放词汇目标检测中,传统方法受限于预定义类别。本文提出NRAA框架,通过邻近区域注意力机制捕捉提案区域及其周围邻居的交互信息,增强与预训练视觉语言模型(如CLIP)的蒸馏效果,显著提升未知类别检测性能。实验表明,在OV-COCO数据集上,AP50 novel达到40.2,较基线提升14.3%。

  开放词汇目标检测(Open-Vocabulary Object Detection, OVD)是一种旨在识别之前未见过的目标类别的技术,它依赖于预训练的视觉-语言模型(Vision-Language Models, VLMs)所提供的开放词汇知识。传统的目标检测模型通常在固定的类别集合上进行训练,因此它们在面对新类别时表现有限。为了克服这一限制,研究者们提出了多种方法,如零样本目标检测(Zero-Shot Detection, ZSD),该方法在没有监督标注的情况下,尝试识别新类别。然而,ZSD的性能受到了缺乏直接监督信息的制约。随着VLMs的发展,如CLIP,这些模型通过大规模图像-文本对进行预训练,能够捕捉到多个对象及其空间或语义关系。因此,OVD技术利用这些VLMs的知识,通过额外的开放词汇来源,如文本-图像数据集,来提升对新类别的识别能力。

尽管现有的OVD方法已经取得了一定的进展,但它们在信息蒸馏过程中仍然存在不足。具体而言,当从VLMs中提取信息时,检测器头部的蒸馏信息往往不够充分,这限制了模型对开放词汇知识的有效利用。为此,本文提出了一种新的方法,称为邻近区域注意力对齐(Neighboring Region Attention Alignment, NRAA)。NRAA通过在注意力机制中进行对齐,增强开放词汇推理的能力。该方法的核心思想是,在给定一个区域提议(由区域提议网络RPN生成)的基础上,随机探索其邻近的边界框,以获取更广泛的视觉概念信息。接着,通过邻近区域注意力(Neighboring Region Attention, NRA)机制,模型能够提取一组区域标记特征之间的交互信息,包括提议区域和邻近区域的特征。最后,这些信息被输入到蒸馏过程中,以提升检测器与VLMs之间的对齐质量。

为了验证NRAA的有效性,本文在多个开放词汇基准数据集上进行了广泛的实验。结果表明,NRAA模型在检测未见过的目标类别方面表现出色。特别是在OV-COCO和OV-LVIS数据集上,NRAA模型在使用R50主干网络的情况下,分别实现了40.2和21.3的显著性能提升。这些结果表明,NRAA方法能够有效缓解现有OVD方法中蒸馏信息不足的问题,从而提升模型的整体表现。此外,消融实验的结果也进一步证明了NRAA方法的优越性,其性能相比基线模型提升了14.3个百分点。

NRAA的主要贡献在于,它引入了一种新的邻近区域注意力机制,该机制能够显式建模提议区域与其周围邻近区域之间的交互关系。这不仅有助于捕捉区域间的上下文关系,还能够提升模型对开放词汇知识的理解和应用能力。此外,NRAA框架在训练过程中使用邻近区域注意力模块,而在推理阶段则将其移除,从而避免了额外的计算开销。这种设计使得模型在保持高效性的同时,能够充分利用VLMs的开放词汇知识,实现更准确的目标检测。

本文还探讨了NRAA方法在实际应用中可能面临的挑战和局限性。首先,模型的性能在很大程度上依赖于所使用的VLMs,因此未来的研究方向之一是探索更强大的VLMs以进一步提升检测效果。其次,虽然NRAA模块在推理阶段可以被移除,但目前仍需要文本编码器的前向传播,这可能增加计算成本。因此,如何在不依赖文本编码器的情况下实现高效的开放词汇检测,是一个值得进一步研究的问题。

总之,NRAA方法通过引入邻近区域注意力机制,有效解决了开放词汇目标检测中信息蒸馏不足的问题。实验结果表明,该方法在多个基准数据集上均取得了优异的性能,为未来的研究提供了新的思路和方向。同时,本文也指出了当前方法的局限性,并提出了可能的改进方向,以期在实际应用中实现更高效、更准确的目标检测。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号