语言辅助重建用于自监督的类别级6D物体姿态估计，结合粗到细的对应关系优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Circuits and Systems for Video Technology》：Language-Assisted Reconstruction for Self-Supervised Category-level 6D Object Pose Estimation with Coarse-to-Fine Correspondence Optimization

【字体：大中小】 时间：2025年11月22日 来源：IEEE Transactions on Circuits and Systems for Video Technology 11.1

编辑推荐：

　　自监督类别级6D姿态估计面临物体局部形变与像素-点云多对一映射两大难题，本文提出LMR模块融合语言引导的虚拟与现实图像对齐及记忆编码机制，CFCO模块采用匈牙利匹配建立像素级显式监督，在REAL275和WILD6D数据集上显著提升自监督方法性能。

摘要：

自监督的类别级6D姿态估计在计算机视觉领域已成为一项具有极其重要意义的任务。尽管近期取得了进展，但目前的自监督方法仍面临两个关键挑战。首先，现有网络准确重建物体模型的能力受到特定类别中显著的部分级形状变化的限制。其次，像素到点云对应关系中存在的多对一不确定性严重阻碍了性能的提升。为了解决这些问题，我们提出了一种新颖的方法，该方法包括语言辅助记忆编码形状重建（LMR）模块和粗到细对应关系优化（CFCO）模块。在LMR模块中，利用语言描述来弥合虚拟图像和真实图像之间的差距，从而提高学习到的表示与真实世界物体外观之间的对齐度。此外，引入了记忆编码机制以通过捕捉细粒度形状变化来提高重建精度。CFCO模块利用匈牙利匹配在区域和像素层面生成一对一的伪标签，为相应的相似性矩阵提供明确的监督。这一过程还在一定程度上缓解了多对一不确定性，从而实现了更准确的对应关系学习。我们在REAL275和WILD6D数据集上评估了我们的方法。大量实验表明，我们的自监督方法优于现有方法，并在自监督框架内取得了新的最佳成果。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号