DCB-VIM:一种基于集成学习的特征选择方法,适用于类别分布不平衡的情况

《Neurocomputing》:DCB-VIM: An ensemble learning based filter method for feature selection with imbalanced class distribution

【字体: 时间:2025年07月17日 来源:Neurocomputing 5.5

编辑推荐:

  开放词汇3D实例分割通过动态偏移模块优化采样点分布并引入投影一致性损失增强mask边界一致性,在ScanNetV2和ScanNet200数据集上分别达到AP25 23.6%和AP50 12.4%,较现有方法提升1.8-6.3个百分点。

  Open-vocabulary 3D instance segmentation作为一种在三维场景中实现物体识别与分割的技术,近年来因其在场景感知方面的巨大潜力而受到广泛关注。随着机器人、自动驾驶和增强现实等技术的快速发展,对三维数据的处理能力变得越来越重要。传统的方法主要集中在封闭词汇的场景中,即模型只能识别和分割预定义的物体类别。然而,这些方法在面对开放世界中的未知物体时表现不佳,限制了其在实际应用中的泛化能力。为了解决这一问题,研究者们提出了开放词汇的3D实例分割(OV-3DIS)方法,使得模型能够根据用户提供的自然语言描述,对任意物体进行识别和分割。

OV-3DIS方法的出现,标志着3D实例分割技术从固定类别向更加灵活和多样化的方向发展。这类方法通常分为两个阶段:首先,使用分割模型生成与类别无关的3D实例掩码;然后,通过语义分类对这些掩码进行标注。然而,当前方法在第二阶段的分类性能往往受限于第一阶段生成的掩码质量。如果掩码不够精确或存在噪声,那么后续的分类任务将难以获得理想的性能。因此,如何提升掩码生成的准确性成为研究的关键。

为了解决这一问题,本文提出了一种名为MarIns3D的新模型,旨在优化3D实例掩码的生成过程。该模型引入了两个关键组件:动态偏移模块和投影一致性损失。动态偏移模块能够动态调整采样点的位置,使得查询点能够更有效地捕捉场景中的关键特征,从而生成高质量的掩码。这一改进不仅提升了掩码的准确性,还增强了模型对不同场景的适应能力。与此同时,投影一致性损失通过比较生成的3D实例掩码与真实掩码在二维投影上的对齐程度,进一步优化了掩码的边界一致性,提高了整体的分割性能。

实验结果显示,MarIns3D在ScanNetV2验证集上的表现优于现有的SOLE方法,在零样本分割任务中,其在AP25和AP50指标上分别提升了1.8%和1.7%。此外,该模型在开放集分割任务中也展现出更强的泛化能力,特别是在ScanNet200基准测试中,相较于OpenMask3D,其在AP指标上提升了6.3个百分点。这些结果表明,MarIns3D在提升掩码质量方面取得了显著成效,并为后续的语义分类任务提供了更加可靠的输入。

MarIns3D的创新点在于其对掩码生成过程的优化。传统的3D实例分割方法通常采用最远点采样(FPS)策略来均匀地选择查询点,但这种方法忽略了物体实例的分布特征以及同一实例内部不同区域的重要性差异。因此,FPS策略在生成掩码时可能会遗漏一些关键信息,导致模型在识别复杂物体时表现不佳。为了解决这一问题,MarIns3D引入了动态偏移模块,该模块能够根据物体实例的特征分布动态调整查询点的位置,使得模型能够更准确地捕捉到物体的关键部分,从而生成更高质量的掩码。

除了动态偏移模块,MarIns3D还引入了投影一致性损失。这一损失函数的设计灵感来源于现有的OV-2DIS模型,旨在通过比较3D实例掩码与真实掩码在二维投影上的边界一致性,提升掩码的质量。在实际应用中,3D场景的二维投影通常用于辅助语义分类任务,而如果掩码的边界不准确,那么分类结果将受到严重影响。通过投影一致性损失,MarIns3D能够在训练过程中强化模型对边界区域的识别能力,从而提高分割精度。

此外,MarIns3D还借鉴了SOLE方法的思想,进一步优化了语义分类阶段。SOLE方法通过结合文本描述、3D掩码和图像信息,提升了语义特征的表达能力。MarIns3D在这一基础上,引入了更精细的语义关联机制,使得模型能够更准确地将自然语言描述与3D场景中的物体进行匹配。这种多模态关联方式不仅增强了模型的语义理解能力,还提高了其对复杂语言查询的适应性。

为了验证MarIns3D的有效性,本文在多个基准数据集上进行了实验测试。其中,ScanNetV2和ScanNet200是最常用的3D实例分割数据集。ScanNetV2包含1513个标注的场景,每个场景平均覆盖约90%的表面区域,涵盖了20个类别。由于“Other Furniture”类别的语义模糊性,本文在实验中将其排除。ScanNet200则是ScanNetV2的细粒度版本,包含了更多的实例类别,从而为开放词汇分割提供了更丰富的测试环境。

实验结果表明,MarIns3D在零样本分割任务中表现优异,相较于OpenIns3D,在AP指标上提升了16.3个百分点。而在与SOLE方法的对比中,MarIns3D在AP25指标上领先1.8个百分点,显示出更强的语义分类能力。此外,在ScanNet200的开放集评估中,MarIns3D在AP指标上超越了OpenMask3D 6.3个百分点,进一步验证了其在处理未见类别时的泛化能力。这些实验结果不仅证明了MarIns3D在掩码生成和语义分类方面的优越性,还表明其在实际应用中具有更强的适应性和稳定性。

为了进一步验证模型的性能,本文还进行了消融实验。消融实验的结果显示,动态偏移模块和投影一致性损失的协同作用对于提升模型性能至关重要。如果单独使用其中一个模块,模型的性能将明显下降,这表明两个模块的结合是实现高效分割的关键。此外,实验还表明,通过优化查询点的采样策略,可以显著提升模型对复杂场景的理解能力,使得其在处理多样化的语言查询时更加精准。

在实际应用中,MarIns3D的优势不仅体现在其技术性能上,还在于其对复杂场景的适应能力。由于3D场景往往包含多种物体和复杂的几何结构,传统的分割方法在处理这些场景时容易出现误差。而MarIns3D通过动态调整查询点的位置,能够更有效地捕捉场景中的关键特征,从而生成更精确的掩码。这种优化不仅提升了分割的准确性,还增强了模型在面对未知类别时的泛化能力,使其能够在开放词汇的环境中表现出色。

总的来说,MarIns3D通过引入动态偏移模块和投影一致性损失,显著提升了3D实例分割的性能。该模型在多个基准数据集上的实验结果表明,其在零样本和开放集分割任务中均表现出色,能够有效应对复杂场景中的挑战。此外,模型的多模态关联机制也增强了其对自然语言描述的理解能力,使其能够更好地适应实际应用中的多样化需求。未来,随着3D视觉技术的不断发展,MarIns3D有望在更广泛的领域中发挥重要作用,如智能机器人、自动驾驶和虚拟现实等。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号