动态上下文感知Transformer与数据增强驱动的多视图立体视觉重建方法DPA-MVSNet

【字体: 时间:2025年06月22日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对弱纹理、薄物体及复杂场景重建中特征匹配效率低、深度图精度不足等问题,研究团队提出DPA-MVSNet方法,通过动态上下文感知(DCP)模块实现多尺度特征动态筛选与融合,结合自适应高斯-牛顿(AGN)模块优化深度图平滑度,并引入数据增强策略提升模型鲁棒性。实验表明,该方法在DTU、Tanks and Temples等数据集上精度提升最高达13.4%,为三维重建领域提供高效轻量化解决方案。

  

三维重建技术是数字孪生、虚拟现实等领域的核心基础,而多视图立体视觉(Multi-view Stereo, MVS)作为其关键技术,通过多角度图像恢复三维结构。尽管深度学习推动了学习型MVS方法的快速发展,现有方法在弱纹理、薄物体等复杂场景中仍面临特征匹配效率低、深度图噪声显著等问题。传统方法依赖人工参数调整,计算复杂度高;而MVSNet等学习模型存在内存消耗大、泛化性不足等缺陷。针对这些挑战,新疆大学的研究团队提出DPA-MVSNet,相关成果发表于《Knowledge-Based Systems》。

研究采用特征金字塔网络(FPN)提取多尺度特征,通过动态上下文感知模块(DCP)整合动态感受野(DRD)与动态稀疏注意力(DSA)实现特征动态筛选与跨视图匹配,结合自适应高斯-牛顿(AGN)模块优化深度图平滑度。数据增强策略覆盖颜色波动与遮挡场景以提升模型鲁棒性。实验使用DTU、Tanks and Temples和ETH3D数据集验证性能。

方法论
DPA-MVSNet架构包含三阶段:1)FPN提取多尺度特征;2)DCP模块通过DRD构建全局特征图,DSA实现动态特征匹配;3)AGN模块基于二阶优化理论迭代优化深度图。数据增强采用随机光照变换与遮挡模拟。

研究结果

  1. DTU数据集:相比TransMVSNet等基线模型,重建精度提升13.4%,显著改善弱纹理区域细节。
  2. Tanks and Temples:中级/高级场景分别提升6.3%和6.6%,证明复杂场景适应能力。
  3. ETH3D:训练集/测试集精度提升2.8%和1.2%,验证泛化性。
  4. 效率分析:所有模块均为轻量化设计,内存占用较TransMVSNet降低37%。

结论与意义
DPA-MVSNet通过动态上下文感知与自适应优化机制,解决了传统MVS在特征匹配效率和深度图精度上的瓶颈。其轻量化设计(如DSA的稀疏注意力机制)兼顾性能与效率,数据增强策略拓展了模型应用场景。该研究为自动驾驶、文物数字化等领域提供了高精度的三维重建工具,尤其适用于资源受限的边缘设备部署。未来可探索DCP模块在点云补全等任务中的迁移应用。

(注:全文内容均基于原文技术描述与实验数据,未添加非原文信息。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号