
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Transformer与语义-纹理解码器(STDec)的自监督单目深度估计方法STDepth
【字体: 大 中 小 】 时间:2025年06月20日 来源:Computer Vision and Image Understanding 4.3
编辑推荐:
为解决自监督单目深度估计中CNN编码器感受野受限、全局建模能力不足的问题,研究人员提出STDepth框架,采用Transformer编码器增强长程空间依赖性,并设计语义-纹理解码器(STDec)整合全局特征重校准(GFR)模块与细节聚焦(DF)模块,显著提升KITTI等数据集的深度估计精度,为自动驾驶等领域提供低成本高精度的三维感知方案。
在计算机视觉领域,单目深度估计(Monocular Depth Estimation)一直是自动驾驶、机器人导航等应用的核心技术。传统方法依赖昂贵的深度传感器或监督学习,而自监督学习(Self-supervised Learning)通过单目或立体视频实现低成本训练,成为研究热点。然而,卷积神经网络(CNN)编码器因局部感受野限制,难以建模全局场景结构,导致深度图边缘模糊、前景背景混淆等问题。
为突破这一瓶颈,来自中国的研究团队提出STDepth框架,首次将Transformer架构引入自监督深度估计任务。该研究创新性地设计了语义-纹理解码器(STDec),通过全局特征重校准(Global Feature Recalibration, GFR)模块解析高层语义信息,结合细节聚焦(Detail Focus, DF)模块增强纹理细节,最终在KITTI、Make3D和NYUv2数据集上达到最先进性能。相关成果发表于《Computer Vision and Image Understanding》。
关键技术包括:1)采用Transformer编码器替代CNN,捕获长程空间依赖;2)STDec双模块设计,GFR通过注意力机制重构全局特征,DF利用内部权重生成聚焦局部细节;3)提出多任意尺度重建损失(MAS Loss),通过自适应分辨率裁剪优化多尺度表示。
研究结果部分:
结论指出,STDepth通过语义-纹理协同解码机制,首次实现自监督框架下全局场景理解与局部细节保留的平衡。其轻量化设计(仅21M参数)特别适合车载设备部署,为自动驾驶三维感知提供新范式。研究还发现,Transformer特征均匀分布特性可能弱化前景显著性,未来可通过动态注意力掩膜进一步优化。
生物通微信公众号
知名企业招聘