高效的三维高斯函数交互式分割及最优视图选择
《Engineering Applications of Artificial Intelligence》:Efficient interactive segmentation of three-dimensional Gaussians with optimal view selection
【字体:
大
中
小
】
时间:2025年09月27日
来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
开放词汇目标检测中,传统方法受限于封闭类别设定,难以识别新类别。本文提出NRAA框架,通过邻近区域注意力机制提取提案区域及其周围区域的交互信息,并融入知识蒸馏过程,提升与预训练VLMs的对齐效果。实验表明,在OV-COCO数据集上AP50提升14.3%,显著优于基线方法。
在现实世界中,环境的多样性要求神经网络模型能够突破原有的封闭分类体系,以适应不断涌现的新类别。这种需求促使了开放词汇目标检测(Open-Vocabulary Object Detection, OVD)技术的发展。开放词汇目标检测的目标是,在仅有基础类别标注和开放词汇知识的监督下,实现对之前未见过的目标类别的检测。然而,现有的基于知识蒸馏的OVD方法在对检测器头部信息进行蒸馏的过程中,常常面临信息提取不足的问题,这限制了其在实际应用中的表现。
为了应对这一挑战,我们提出了一种新的方法,称为邻近区域注意力对齐(Neighboring Region Attention Alignment, NRAA)。该方法的核心思想是通过在注意力机制内部进行对齐,提升开放词汇推理的能力。具体来说,对于每一个由区域建议网络(Region Proposal Network, RPN)生成的候选框,我们首先随机探索其邻近的边界框,以捕捉更广泛的视觉概念。然后,我们将这些邻近区域的特征与候选框的特征结合起来,利用我们提出的邻近区域注意力(Neighboring Region Attention, NRA)机制,提取区域特征之间的交互信息。最后,这些信息被输入到知识蒸馏过程中,帮助检测器与预训练的视觉语言模型(Vision-Language Models, VLMs)之间建立更紧密的对齐关系。
通过大量的实验验证,我们的模型在开放词汇基准数据集上展现出卓越的性能。尤其是在使用ResNet-50(R50)作为主干网络的情况下,我们在OV-COCO和OV-LVIS数据集上分别达到了40.2和21.3的指标,这些指标在开放词汇目标检测任务中具有重要意义。此外,通过消融实验,我们进一步验证了NRAA方法的有效性,结果显示在基线模型的基础上,我们的方法在OV-COCO数据集上实现了显著的性能提升,从25.9提升到了40.2,增幅达到了14.3。这表明,NRAA方法在提升开放词汇目标检测能力方面具有明显的优越性。
开放词汇目标检测(OVD)的出现,源于传统目标检测方法在面对未知类别时的局限性。传统的目标检测模型通常基于固定的类别集合进行训练,无法适应新的类别。为了克服这一问题,研究者们提出了零样本目标检测(Zero-Shot Detection, ZSD)的概念,即在没有额外标注的情况下,利用已有知识对未知类别进行检测。然而,ZSD方法在实际应用中仍然面临诸多挑战,尤其是如何有效地利用预训练模型中的知识。
随着视觉语言模型(VLMs)的发展,特别是像CLIP这样的模型,它们在大规模图像-文本对上进行预训练,能够捕捉到丰富的语义信息。这种预训练过程使得VLMs不仅能够识别单个物体,还能理解物体之间的关系。因此,将VLMs的知识蒸馏到目标检测模型中,成为提升开放词汇检测性能的重要途径。现有的OVD方法主要依赖于直接从VLMs中提取开放词汇知识,并将其应用到检测器中,以增强对未知类别的识别能力。
然而,这些方法在实际应用中仍存在一定的不足。首先,它们往往忽视了在蒸馏过程中信息提取的不完整性。其次,这些方法在处理区域特征之间的交互时,缺乏有效的机制,导致检测器与VLMs之间的对齐效果不理想。因此,如何在检测器中更好地捕捉和利用区域特征之间的关系,成为提升OVD性能的关键问题。
为了解决上述问题,我们提出了NRAA方法。该方法的核心在于引入邻近区域注意力机制,以增强区域特征之间的交互。具体来说,我们首先通过随机探索邻近区域来获取更丰富的上下文信息,然后利用NRA机制提取这些区域特征之间的关系。通过这种方式,我们的模型能够在检测过程中更好地理解物体之间的关系,从而提升对未知类别的检测能力。
在实验设计上,我们选择了两个广泛使用的数据集:COCO和LVIS。COCO数据集包含80个目标类别,其中48个被用作基础类别进行模型训练,另外17个作为开放词汇类别用于检测。LVIS数据集则是一个长尾分布的数据集,包含更多的类别,且每个类别的出现频率较低。通过在这些数据集上的实验,我们验证了NRAA方法的有效性。
在实际应用中,NRAA方法不仅能够提升开放词汇目标检测的性能,还能在不需要额外标注或伪标签的情况下,实现对未知类别的有效检测。这使得NRAA方法在实际场景中具有更高的灵活性和适应性。此外,我们的方法在训练过程中引入了邻近区域注意力机制,但在推理阶段则将其移除,从而避免了额外的计算开销,提高了模型的效率。
尽管NRAA方法在开放词汇目标检测任务中表现出色,但仍然存在一些局限性。首先,我们的方法依赖于预训练的视觉语言模型,如CLIP,而不同模型的性能可能会有所不同。因此,未来的研究可以探索更强大的视觉语言模型,以进一步提升检测性能。其次,尽管我们的模型在推理阶段能够有效地移除邻近区域注意力机制,但在实际应用中,仍然需要依赖文本编码器的前向传播过程,这可能会增加计算负担。因此,未来的研究可以关注如何优化这一过程,以减少计算开销。
总体而言,NRAA方法在开放词汇目标检测任务中具有重要的应用价值。它不仅能够提升检测器的性能,还能在不依赖额外标注的情况下,实现对未知类别的有效检测。通过引入邻近区域注意力机制,我们的方法在区域特征的交互和对齐方面取得了显著的进展,为开放词汇目标检测领域提供了新的思路和方法。未来的研究可以进一步探索如何优化这一过程,以提高模型的效率和适应性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号