基于相关性引导的掩码自编码器与点云上的多模态对比交互

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：Correlation-guided Masked Autoencoder with Multimodal Contrastive Interaction on Point Clouds

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　自监督学习在3D点云分析中表现突出，现有方法存在局部语义提取不足或全局建模局限。本文提出CorMAC方法，通过球面自适应嵌入提升局部语义建模，扩展多模态对比交互增强全局对齐，并设计联合损失优化机制。实验表明该方法在多种数据集上优于现有方法且泛化能力更强。

摘要

自我监督学习在3D点云理解方面展现出了显著的效果。现有的掩码自编码器或对比学习范式能够从未标记的数据中获取稳健的特征表示。具体而言，掩码自编码器提取局部块的特征，并将其直接映射到潜在的全局向量上，但存在语义提取不足和潜在交互作用较弱的问题。对比学习范式通过受限约束来捕捉全局对应关系，但由于缺乏局部细节建模而受到限制。这促使我们整合这两种有效组件的协同优势，并进一步扩展它们以适应多模态依赖性。在本文中，我们提出了一种统一的、基于相关性引导的掩码自编码器与多模态对比交互（CorMAC）学习方法，用于自我监督的点云分析。首先，我们设计了球形自适应嵌入框架来学习局部潜在语义，并改进了掩码机制以实现块的自编码和重建。接着，我们扩展了多模态对比对应关系和约束，以利用点云与辅助图像模态之间的潜在对齐关系。此外，我们还设计了可适应的损失函数来联合优化掩码恢复误差和对比误差，旨在提升潜在特征的学习效果。广泛的实验表明，与其他自我监督方法相比，我们的方法在各种数据集上表现更优，并且在多种下游任务中展现了更好的泛化能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号