基于视觉基础模型的一致性引导蒸馏方法，用于零样本空中点云分割

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Remote Sensing》：Consistency-Guided Distillation from Vision Foundation Models for Zero-Shot Airborne Point Cloud Segmentation

【字体：大中小】 时间：2026年06月09日 来源：Remote Sensing 4.1

编辑推荐：

　　摘要大规模机载点云的语义分割传统上依赖于劳动密集型的3D手动标注。虽然最近的零样本方法试图通过2D到3D的投影从2D视觉-语言模型（VLM）中提取知识来减轻这一负担，但在复杂的城市环境中，这些方法的性能会下降。具体来说

摘要

大规模机载点云的语义分割传统上依赖于劳动密集型的3D手动标注。虽然最近的零样本方法试图通过2D到3D的投影从2D视觉-语言模型（VLM）中提取知识来减轻这一负担，但在复杂的城市环境中，这些方法的性能会下降。具体来说，由于缺乏3D几何感知，2D VLM经常会出现“语义溢出”现象，即大规模的背景类别（例如地面）错误地覆盖了小规模的目标（例如车辆和街道元素）。为了解决这个问题，我们提出了一个基于几何约束的伪标签生成和净化框架。我们的方法采用双分支设计：通过基于SAM3的多视图投影提取开放词汇表语义，同时使用SAM2在Gamma变换后的高程图上生成精确的、与类别无关的实例。通过引入几何-语义一致性模块，我们评估了这些实例的内部语义纯度和外部空间均匀性，检测并过滤掉语义错误分类。然后使用这些净化后的伪标签通过掩码交叉熵损失来监督3D稀疏卷积网络。在H3D和Turin3D数据集上的实验表明，我们的方法能够恢复容易被覆盖的小规模目标，将mIoU从52.15%提高到63.45%（在H3D上），从29.52%提高到58.51%（在Turin3D上），从而缩小了与完全监督方法的性能差距。

联系信箱：

粤ICP备09063491号

摘要

热点排行