通过虚拟点云实现的多空间表示融合增强型单目深度估计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Multimedia Computing, Communications, and Applications》：Multi-space Representation Fusion Enhanced Monocular Depth Estimation via Virtual Point Cloud

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Multimedia Computing, Communications, and Applications

编辑推荐：

　　单目深度估计通过引入虚拟点云中间表示，设计多尺度多空间融合框架解决尺度歧义和边界误差问题，置信图优化结合几何一致性损失提升精度，在KITTI和NYU数据集上显著优于SOTA方法。

摘要

单目深度估计（MDE）是计算机视觉中的一个基本问题，在各种下游任务中具有广泛的应用。虽然最近的研究致力于设计越来越复杂和强大的深度学习方法来直接回归深度图，我们提出了一种新的方法，通过引入虚拟点云（VPC）作为中间表示，为MDE任务提供近似的几何先验。在本文中，我们设计了一个多尺度多空间表示融合增强的单目深度估计框架，以应对MDE的挑战。具体来说，为了解决尺度模糊问题，我们设计了一个VPC特征提取模块来学习深度先验的多尺度3D几何信息。然后，我们通过结合2D空间中的纹理特征和3D空间中的几何特征，明确引入了全局深度预测的几何约束。为了减少物体边界处的误差，我们引入了一个基于VPC质量的置信度图来细化预测的深度图。具体而言，我们基于球坐标系中的3D空间距离构建了卷积感受野，确保置信度图在物体边界处提供可靠的几何指导。此外，我们提出了一个独立的置信度几何一致性损失来监督细化过程。实验结果表明，我们的方法在KITTI和NYU-Depth-v2数据集上的所有评估指标上均显著优于现有方法，分别实现了9.2%和2.8%的RMSE改进。此外，在nuScenes和SUN-RGBD数据集上的零样本评估进一步验证了我们方法的泛化能力。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号