基于Swin Transformer与多尺度特征融合的高分辨率多视角立体匹配方法

【字体: 时间:2025年06月09日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  为解决大场景高分辨率图像三维重建中特征依赖关系不足和全局一致性差的问题,研究人员提出SwinMVS网络,集成特征金字塔(FPN)与Swin Transformer构建MSFF模块,结合注意力机制(Att-CostReg)和深度优化模块(DOM),在DTU等数据集上实现最优深度预测精度,为文化遗产数字化等领域提供新方案。

  

三维重建技术正成为数字建模、文化遗产保护等领域的核心工具,但传统多视角立体匹配(MVS)方法面临两大瓶颈:一是依赖局部卷积特征难以捕捉全局上下文关系,二是高分辨率图像处理时几何一致性与计算效率难以兼顾。例如经典方法MVSNet虽引入深度学习,但对非均匀纹理场景适应性差,而基于Transformer的TransMVSNet仍未解决多尺度特征融合不足的问题。

为突破这些限制,国内研究人员提出SwinMVS网络。该研究创新性地将Swin Transformer嵌入特征金字塔(FPN),形成多尺度特征融合模块(MSFF),通过分层窗口注意力机制建立长程特征依赖。在成本体积正则化阶段引入卷积注意力模块(CBAM)构建Att-CostReg网络,结合3D UNet增强噪声抑制能力。最终通过深度优化模块(DOM)融合原始图像信息,实现亚像素级深度校正。

关键技术包括:1) 基于DTU和Tanks and Temples数据集的跨场景验证;2) 融合Swin Transformer的MSFF特征提取框架;3) 集成CBAM的Att-CostReg成本体积正则化;4) 多阶段深度优化策略。

研究结果显示:
网络架构:MSFF模块使特征匹配召回率提升12.7%,Swin Transformer的窗口移位机制有效解决跨尺度信息传递问题。
实验验证:在DTU数据集上综合指标达0.289mm精度,较MVSNet提升41%;在Tanks and Temples的"intermediate"组别F1
-score达59.3%,证明大场景适应性。
消融实验:DOM模块使深度图边缘误差降低23.8%,CBAM注意力使遮挡区域重建完整度提升18.6%。

结论表明,SwinMVS通过三大创新模块的协同作用:1) 建立首个融合Swin Transformer的MVS特征提取范式;2) 实现高分辨率(1920×1080)图像实时处理(11.3fps);3) 在ETH3D低纹理数据集上仍保持78.4%的完整度。该研究不仅为考古数字化提供新工具,其注意力机制与多尺度融合策略更为医疗影像三维重建等跨领域应用提供理论借鉴。论文成果发表于《Engineering Applications of Artificial Intelligence》,相关代码已开源。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号