融合上下文与几何信息的CF-ACV立体匹配网络及其高效深度估计方法

【字体: 时间:2025年06月16日 来源:Optics and Lasers in Engineering 3.5

编辑推荐:

  针对深度学习立体匹配方法在计算效率与跨域泛化性上的不足,研究人员提出CF-ACV网络,通过融合几何(Geometric)与上下文(Contextual)信息优化成本聚合策略,实现43.19%的匹配精度提升,并在弱纹理/高反射区域通过人工标记特征点优化性能,最终构建高效、高精度全场景深度估计框架,平均绝对误差仅6.44 mm。

  

在计算机视觉领域,深度估计(Depth Estimation)如同给机器装上“立体视觉”,但现有方法常陷入两难:基于结构光等主动光源的技术硬件成本高昂,而单目被动方法在遮挡或光照变化下表现堪忧。尽管双目立体匹配(Stereo Matching)凭借多视角优势成为性价比之选,传统算法依赖手工特征,面对纹理稀疏、遮挡等复杂场景时仍捉襟见肘。深度学习虽带来曙光,但高精度模型如LEAStereo计算负担沉重,而实时模型如StereoNet又因丢失几何结构信息导致边缘错位——这恰似“鱼与熊掌”的经典困境。

为破解这一难题,中国的研究团队提出CF-ACV网络,核心创新在于将几何信息(物体三维空间属性)与上下文信息(语义关联)融合至成本聚合(Cost Aggregation)阶段,而非传统成本体积(Cost Volume)构建。这种策略既避免IGEV-Stereo的复杂度膨胀,又通过物理约束缩小搜索空间,最终在Scene Flow数据集上达到0.63px的端点误差(EPE),KITTI 2012的3-all指标仅2.05%。相关成果发表于《Optics and Lasers in Engineering》,为移动端部署提供新范式。

关键技术包括:1) 构建Context and Geometry Fusion模块优化成本聚合;2) 基于电动平移台(替代激光雷达)的误差测量;3) 高反射区域人工特征标记以提升弱纹理表现。

Method
研究框架涵盖数据集准备、立体匹配、深度估计等五模块。CF-ACV通过几何-上下文协同引导聚合,显著提升低纹理区精度。

Ablation study
消融实验验证模块插入位置的影响,基线网络Fast-ACV经改造后,在自制硬件平台上显示最优配置可使匹配效率提升约40%。

Conclusion
CF-ACV以60 fps实时性能超越多数SOTA模型,其泛化能力体现在跨场景平均相对误差(Mean Relative Error)仅4.15%。

讨论部分强调,该研究首次将几何-上下文融合重心从成本体积转移至聚合阶段,既保留Fast-ACV的轻量化特性,又通过特征点标记解决反射区域“信息黑洞”问题。资助信息显示,国家自然科学基金(12102267)和广东省教育厅重点项目(2024ZDZX3017)支持了此项工作。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号