动态上下文感知Transformer与数据增强驱动的多视图立体视觉重建方法DPA-MVSNet

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：DPA-MVSNet: Dynamic Context Perception Multi-view Stereo with Transformers and data augmentation

【字体：大中小】 时间：2025年06月22日 来源：Knowledge-Based Systems 7.2

编辑推荐：

　　针对弱纹理、薄物体及复杂场景重建中特征匹配效率低、深度图精度不足等问题，研究团队提出DPA-MVSNet方法，通过动态上下文感知（DCP）模块实现多尺度特征动态筛选与融合，结合自适应高斯-牛顿（AGN）模块优化深度图平滑度，并引入数据增强策略提升模型鲁棒性。实验表明，该方法在DTU、Tanks and Temples等数据集上精度提升最高达13.4%，为三维重建领域提供高效轻量化解决方案。

三维重建技术是数字孪生、虚拟现实等领域的核心基础，而多视图立体视觉（Multi-view Stereo, MVS）作为其关键技术，通过多角度图像恢复三维结构。尽管深度学习推动了学习型MVS方法的快速发展，现有方法在弱纹理、薄物体等复杂场景中仍面临特征匹配效率低、深度图噪声显著等问题。传统方法依赖人工参数调整，计算复杂度高；而MVSNet等学习模型存在内存消耗大、泛化性不足等缺陷。针对这些挑战，新疆大学的研究团队提出DPA-MVSNet，相关成果发表于《Knowledge-Based Systems》。

研究采用特征金字塔网络（FPN）提取多尺度特征，通过动态上下文感知模块（DCP）整合动态感受野（DRD）与动态稀疏注意力（DSA）实现特征动态筛选与跨视图匹配，结合自适应高斯-牛顿（AGN）模块优化深度图平滑度。数据增强策略覆盖颜色波动与遮挡场景以提升模型鲁棒性。实验使用DTU、Tanks and Temples和ETH3D数据集验证性能。

方法论
DPA-MVSNet架构包含三阶段：1）FPN提取多尺度特征；2）DCP模块通过DRD构建全局特征图，DSA实现动态特征匹配；3）AGN模块基于二阶优化理论迭代优化深度图。数据增强采用随机光照变换与遮挡模拟。

研究结果

DTU数据集：相比TransMVSNet等基线模型，重建精度提升13.4%，显著改善弱纹理区域细节。
Tanks and Temples：中级/高级场景分别提升6.3%和6.6%，证明复杂场景适应能力。
ETH3D：训练集/测试集精度提升2.8%和1.2%，验证泛化性。
效率分析：所有模块均为轻量化设计，内存占用较TransMVSNet降低37%。

结论与意义
DPA-MVSNet通过动态上下文感知与自适应优化机制，解决了传统MVS在特征匹配效率和深度图精度上的瓶颈。其轻量化设计（如DSA的稀疏注意力机制）兼顾性能与效率，数据增强策略拓展了模型应用场景。该研究为自动驾驶、文物数字化等领域提供了高精度的三维重建工具，尤其适用于资源受限的边缘设备部署。未来可探索DCP模块在点云补全等任务中的迁移应用。

（注：全文内容均基于原文技术描述与实验数据，未添加非原文信息。）

联系信箱：

粤ICP备09063491号

热点排行