在状态约束未知且输入约束不对称的离散时间非线性零和博弈中,采用安全的强化学习方法
《Neurocomputing》:Safe Reinforcement Learning for Discrete-Time Nonlinear Zero-Sum Games with Unknown State Constraints and Asymmetric Input Constraints
【字体:
大
中
小
】
时间:2025年07月17日
来源:Neurocomputing 5.5
编辑推荐:
开放词汇3D实例分割通过动态偏移模块优化采样策略,结合投影一致性损失提升3D掩膜边界精度,在ScanNetV2和ScanNet200数据集上实现AP25和AP50性能超越现有方法1.8%-1.9%,有效解决零样本和开放场景下的语义分割难题。
近年来,3D视觉技术在机器人、自动驾驶和增强现实等领域的广泛应用,推动了3D实例分割技术的快速发展。3D实例分割的目标是通过对3D点云数据进行精确分割和识别,以实现对场景中物体的全面理解。然而,传统的3D实例分割方法通常受限于预定义的物体类别,难以处理开放世界环境中未知的物体。为了解决这一问题,研究人员提出了开放词汇3D实例分割(Open-Vocabulary 3D Instance Segmentation, OV-3DIS)技术,使得模型能够根据用户提供的自然语言描述,对3D场景中的任意物体进行分割。这一技术突破了传统方法的限制,为更广泛的应用场景提供了可能。
早期的OV-3DIS方法主要分为两种范式:封闭集和开放词汇。封闭集范式下,模型通常是在固定的、预定义的词汇集上进行训练和评估。这种方法虽然在某些情况下表现良好,但在处理未知类别时存在明显不足。为了突破这一限制,研究者们引入了零样本设置,即将数据集分为“基础”和“新颖”(B/N)类别,模型仅在基础类别上进行训练,而在新颖类别上进行测试。然而,这种方法往往导致模型对基础类别过度拟合,因为训练过程中缺乏新颖类别的数据,从而限制了其真正的泛化能力。为了解决这个问题,开放词汇范式逐渐成为主流,该范式下模型可以在不固定类别列表的情况下,根据任意文本描述进行评估和分割,从而提升了对未知物体的识别能力。
在实现OV-3DIS的过程中,研究者们借鉴了2D开放词汇实例分割(OV-2DIS)的成功经验,提出了一个两阶段的处理流程:实例分割和实例分类。在实例分割阶段,3D实例分割模型处理点云数据,生成不依赖于类别信息的实例掩膜(class-agnostic masks)。在实例分类阶段,预训练的视觉-语言模型(如CLIP)通过2D图像将点云与自然语言描述进行关联,从而为实例掩膜赋予语义标签。这一流程使得模型能够在缺乏类别标签的情况下,通过文本描述进行有效分割。
目前,许多现有的OV-3DIS方法依赖于Mask3D模型,该模型是一种基于Transformer的3D实例分割方法,能够生成高质量的实例掩膜。然而,这些方法通常采用最远点采样(Farthest Point Sampling, FPS)策略来均匀地选择查询点。FPS策略虽然在某些情况下有效,但它忽略了物体实例的分布情况以及同一实例内部不同区域的重要性,导致查询点的选择不够精准,影响了最终的分割效果。为了改进这一点,本文提出了一种新的开放词汇3D实例分割模型——MarIns3D,该模型采用了一种优化的采样策略,能够优先选择具有丰富特征的查询点,从而提升查询质量。
此外,MarIns3D引入了一种投影一致性损失(Projection Consistency Loss),该损失通过比较生成的3D实例掩膜与真实掩膜在2D投影上的边界一致性,从而优化掩膜的质量。这一机制不仅提高了分割的准确性,还增强了模型对开放集合场景的适应能力。在分类阶段,MarIns3D进一步利用文本描述、3D掩膜和图像之间的关系,提升语义特征的表达,从而增强对未知类别的识别能力。这种多模态的结合使得模型在处理复杂场景时更加灵活和高效。
为了验证MarIns3D的有效性,本文在ScanNetV2和ScanNet200两个公开数据集上进行了广泛的实验。在ScanNetV2的零样本分割任务中,MarIns3D相较于OpenIns3D实现了16.3个百分点的AP提升,同时在AP25指标上超过了SOLE方法1.8个百分点,展示了其在零样本场景下的强大表现。在ScanNet200的开放集合评估中,MarIns3D在AP指标上优于OpenMask3D 6.3个百分点,表明其在处理大量未知类别时具备良好的泛化能力。这些显著的性能提升直接归因于本文提出的两个关键技术模块:动态偏移模块和投影一致性损失。
动态偏移模块的核心思想是通过捕捉具有丰富特征的查询点位置,使这些查询点更好地对齐于场景中的物体区域,从而生成更具代表性的查询。这一模块的引入使得模型在分割过程中能够更准确地识别物体边界,提高了分割的精确度。投影一致性损失则通过比较预测的3D掩膜与真实掩膜在2D投影上的边界一致性,从而优化掩膜的质量。这一机制确保了模型在不同视角下生成的掩膜具有更高的鲁棒性和一致性,为后续的语义分类提供了更可靠的输入。
通过消融实验,本文进一步验证了动态偏移模块和投影一致性损失之间的协同作用对模型性能提升的关键性。实验结果显示,这两个模块的结合不仅显著提高了分割的准确率,还增强了模型在处理复杂场景时的适应能力。同时,定性实验也表明,MarIns3D在生成高质量实例掩膜方面表现优异,并能够有效处理多样化的语言查询。这些结果充分证明了MarIns3D在开放词汇3D实例分割任务中的优越性。
综上所述,本文提出的MarIns3D模型在多个方面对传统方法进行了改进,特别是在查询点选择和掩膜质量优化方面。通过动态偏移模块和投影一致性损失的引入,MarIns3D在零样本和开放集合场景下的分割性能得到了显著提升。此外,模型在处理自然语言描述时表现出较强的语义理解能力,能够更准确地识别和分割未知类别。这些创新不仅推动了3D实例分割技术的发展,也为未来的智能感知系统提供了新的思路和方法。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号