自监督学习驱动的三维网格物体几何相似性快速检索方法研究

【字体: 时间:2025年06月06日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  【编辑推荐】针对传统监督方法在3D模型检索中面临的标注数据稀缺和可扩展性难题,研究人员提出了一种基于自监督学习的编码器-解码器架构,通过简化网格表征和自动对齐技术,实现了跨数据集的快速(0.25秒/次)且方向无关的检索。该方法在ModelNet40/ShapeNet等数据集上达到与监督方法相当的mAP性能,为工程与医疗影像等领域提供了轻量化解决方案。

  

在数字时代,三维模型已成为工程设计、医疗影像和虚拟现实等领域的核心资产。然而,与文本和图像检索的成熟技术相比,三维模型的搜索技术仍处于早期阶段。传统方法依赖人工标注的几何描述符(如Spin Images)或监督学习,但标注海量3D数据的成本极高,且模型难以跨数据集迁移。更棘手的是,现有方法对物体旋转敏感,检索速度也难以满足实际需求——这些问题严重制约了三维模型在智能制造和医学影像分析等场景的应用。

针对上述挑战,来自未知机构的研究团队在《Computer Vision and Image Understanding》发表论文,提出了一种革命性的自监督框架。该方法仅需输入简化后的三角网格(统一为512个面片),通过编码器-解码器架构自动学习几何特征嵌入,无需任何人工标注。关键技术包括:基于MeshNet++的面片表征(中心点/角点/法向量)、多步学习率调度的随机梯度下降优化(batch size=8),以及L2归一化处理。实验采用ModelNet40训练,在ShapeNet和Objaverse等跨数据集测试中验证迁移性。

【Related works】
通过分析现有3D检索方法,指出视图基(view-based)方法存在三维信息丢失缺陷,而模型基(model-based)方法虽能捕捉结构特征,但依赖监督学习。本文方法首次将自监督Siamese网络引入该领域。

【Method】
预处理阶段将物体缩放至单位球体并统一网格密度。创新性地使用面片级几何参数作为输入,通过编码器生成128维嵌入向量,解码器重构面片坐标。关键突破是引入自动方向校正模块,使检索不受初始摆放角度影响。

【Datasets】
在ModelNet40(含9,843模型)训练,跨数据集测试包含ShapeNet(51,190模型)和Objaverse。预处理后的轻量化数据集已开源,单个模型仅占1.1MB存储。

【Implementation details】
在NVIDIA RTX 3090上训练15小时,最终模型体积1.1GB。检索阶段采用近似最近邻搜索,速度达4 queries/秒,较传统方法提升20倍。

【Conclusion】
该研究实现了三大突破:1)首次证明自监督学习在3D检索中可媲美监督方法(mAP 0.82 vs 0.85);2)开创方向无关检索,解决了工业零件多姿态匹配难题;3)构建的轻量化框架使嵌入式设备部署成为可能。作者团队贡献的预处理数据集将加速相关研究,而跨数据集表现预示其在医疗影像(如CT模型检索)中的潜在价值。未来工作可探索点云(point cloud)与体素(voxel)的联合表征优化。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号