
-
生物通官微
陪你抓住生命科技
跳动的脉搏
语言引导零样本点云分割与多角度重投影工具LASER的创新研究及其在虚拟现实中的应用
【字体: 大 中 小 】 时间:2025年09月14日 来源:Measurement: Digitalization
编辑推荐:
本研究针对LiDAR点云缺乏语义标签的问题,开发了一种语言引导的零样本3D分割与重投影工具LASER。该工具集成Grounded-SAM和Segment Anything Model,通过多角度正交照片生成和置信度加权融合算法,实现了高精度点云分割。结果表明,LASER在建筑工地等复杂场景中能有效识别和提取目标对象,为虚拟现实和数字孪生应用提供了高效解决方案。
在虚拟现实应用日益普及的今天,高精度的三维环境重建成为关键需求。虽然LiDAR(Light Detection and Ranging)技术能够以高保真度捕获物理空间,但产生的点云数据通常缺乏语义标签,这限制了其在物体识别、交互建模和沉浸式环境自动化等任务中的直接应用。传统的点云标注方法往往依赖于增量映射或多视角RGB-D视频融合,这些方法不仅需要大量标注数据,还对采集协议有严格要求,且多专注于实时连续映射,而静态点云的事后分割研究相对不足。
针对这些挑战,Brunel University London的研究团队开发了一种名为LASER(LAnguage-guided zero-shot 3D SEgmentation and Reprojection tool)的创新工具。该工具通过语言引导的零样本分割技术,结合多视角渲染和重投影方法,为静态点云提供了一种灵活的后处理解决方案。LASER不仅避免了领域特定训练数据的需求,还通过动态角度选择和置信度加权融合算法,显著提高了分割精度和空间一致性。
研究首先对输入点云进行预处理和地面滤波,将点云分为地面和非地面部分。随后,通过虚拟相机从多个角度生成正交照片和透视图,优化场景覆盖。利用Grounded DINO模型根据文本描述检测物体,再通过Segment Anything Model(SAM)细化为分割掩码。LASER的核心创新在于其置信度加权重投影算法,该算法将多个2D分割结果融合回3D空间,确保更高的一致性和准确性。最终,生成的语义标记资产可以标准格式导出,或通过调整视角和文本提示进行迭代优化。
在实验部分,研究团队将LASER应用于建筑工地的真实3D扫描数据,展示了其在提供高分割精度、增强用户交互性和无缝集成到虚拟现实工作流中的有效性。通过对不同点云扫描的全面评估,包括3DSES和Toronto3D数据集,LASER在室内外场景中均表现出稳定的性能。与现有技术的特征比较显示,LASER是一种优化的工具,能够为静态开放世界3D扫描添加语义标签,为特定应用提供了替代方案。
LASER的成功开发不仅推动了零样本3D分割技术的发展,还为虚拟现实、数字孪生和建筑安全培训等领域提供了实用的解决方案。其语言引导和多角度重投影的创新方法,为未来在更大规模城市环境和动态场景分析中的应用奠定了基础。
主要技术方法包括:点云预处理与地面滤波、多角度正交照片生成、基于文本提示的边界框检测(使用Grounded DINO)、2D分割(使用Segment Anything Model)、置信度加权融合算法以及网格重建与优化。实验数据来源于真实建筑工地的LiDAR扫描和公开的Toronto3D数据集。
研究结果表明,LASER在多个测试案例中均能有效识别和分割目标物体。例如,在建筑工地扫描中,LASER成功识别了窗户、门、挖掘机等结构,并通过颜色编码清晰展示了分割结果。与手动标注相比,LASER在保持高召回率的同时,显著减少了处理时间。在3DSES和Toronto3D数据集的验证中,LASER对不同物体类别(如背心、书籍堆、汽车和树木)的分割表现出不同程度的精度和召回率,但总体而言,其高召回率确保了大多数目标物体的有效捕获。
讨论部分指出,LASER的性能与输入点云密度直接相关,稀疏点云可能导致分割碎片化和召回率下降。尽管如此,通过多视角融合和置信度加权,LASER能够将嘈杂的2D提案转化为稳定的3D分割。未来的工作将专注于实时分割、更大规模环境分析以及更先进的自然语言理解集成,以进一步提升工具的适应性和准确性。
生物通微信公众号
知名企业招聘