基于Transformer与语义-纹理解码器(STDec)的自监督单目深度估计方法STDepth

【字体: 时间:2025年06月20日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  为解决自监督单目深度估计中CNN编码器感受野受限、全局建模能力不足的问题,研究人员提出STDepth框架,采用Transformer编码器增强长程空间依赖性,并设计语义-纹理解码器(STDec)整合全局特征重校准(GFR)模块与细节聚焦(DF)模块,显著提升KITTI等数据集的深度估计精度,为自动驾驶等领域提供低成本高精度的三维感知方案。

  

在计算机视觉领域,单目深度估计(Monocular Depth Estimation)一直是自动驾驶、机器人导航等应用的核心技术。传统方法依赖昂贵的深度传感器或监督学习,而自监督学习(Self-supervised Learning)通过单目或立体视频实现低成本训练,成为研究热点。然而,卷积神经网络(CNN)编码器因局部感受野限制,难以建模全局场景结构,导致深度图边缘模糊、前景背景混淆等问题。

为突破这一瓶颈,来自中国的研究团队提出STDepth框架,首次将Transformer架构引入自监督深度估计任务。该研究创新性地设计了语义-纹理解码器(STDec),通过全局特征重校准(Global Feature Recalibration, GFR)模块解析高层语义信息,结合细节聚焦(Detail Focus, DF)模块增强纹理细节,最终在KITTI、Make3D和NYUv2数据集上达到最先进性能。相关成果发表于《Computer Vision and Image Understanding》。

关键技术包括:1)采用Transformer编码器替代CNN,捕获长程空间依赖;2)STDec双模块设计,GFR通过注意力机制重构全局特征,DF利用内部权重生成聚焦局部细节;3)提出多任意尺度重建损失(MAS Loss),通过自适应分辨率裁剪优化多尺度表示。

研究结果部分:

  1. 模型架构验证:实验表明Transformer编码器参数仅为ResNet18的70%,但通过STDec充分挖掘多阶段特征,深度估计误差降低12.3%。
  2. 模块有效性:GFR模块使前景物体边界清晰度提升19%,DF模块将纹理复杂区域的SSIM指标提高0.08。
  3. 跨数据集泛化:在Make3D和NYUv2上的迁移实验显示,无需微调即可保持90%以上KITTI训练性能。

结论指出,STDepth通过语义-纹理协同解码机制,首次实现自监督框架下全局场景理解与局部细节保留的平衡。其轻量化设计(仅21M参数)特别适合车载设备部署,为自动驾驶三维感知提供新范式。研究还发现,Transformer特征均匀分布特性可能弱化前景显著性,未来可通过动态注意力掩膜进一步优化。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号