
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GRdepth:融合全局信息与自迭代调节网络的单目深度估计方法
【字体: 大 中 小 】 时间:2025年07月02日 来源:Digital Signal Processing 2.9
编辑推荐:
为解决单目深度估计(MDE)中全局信息利用不足和深度值离散化导致的精度问题,研究人员提出GRdepth框架,通过交叉大规模特征增强(CLSE)模块和迭代调节解码器(IRD),结合分类-回归策略优化深度预测。实验表明该方法在NYU-Depth-v2等数据集达到SOTA性能,为3D重建和自动驾驶提供新解决方案。
在计算机视觉领域,单目深度估计(Monocular Depth Estimation, MDE)一直是个充满挑战的"视觉魔术"——试图从一张平淡的2D照片中,还原出三维世界的空间奥秘。这项技术是自动驾驶汽车的"空间感知器",是机器人导航的"数字触角",更是虚拟现实构建三维场景的"隐形画笔"。然而现有的方法如同"管中窥豹",CNN编码器受限于局部感受野,Transformer虽能捕捉全局信息却在特征融合过程中逐渐"遗忘"全局特征,导致预测的深度图中物体位置偏移。更棘手的是,传统方法将深度预测简单分为回归或分类任务,前者收敛缓慢,后者则因深度值离散化产生"阶梯状"伪影。
安徽理工大学的研究团队在《Digital Signal Processing》发表的GRdepth研究,创新性地提出"分类-回归"双轨策略。通过交叉大规模特征增强模块(CLSE)和迭代调节解码器(IRD),像"精密的钟表匠"般校准每个深度区间。其中全局信息聚合单元(GIA)如同"广角镜头"捕捉场景整体结构,而迭代自适应特征融合(IAFF)单元则像"微调旋钮",动态调整初始分箱宽度。最终在NYU-Depth-v2等数据集实现厘米级精度,让机器真正"看懂"三维空间。
关键技术包含:1)基于Swin-Transformer的编码器提取多尺度特征;2)CLSE模块通过通道/空间注意力机制融合全局-局部特征;3)IRD解码器采用SRbins单元迭代优化分箱策略;4)使用NYU-Depth-v2等标准数据集验证性能。实验设计如同"三重奏":室内场景采用NYU-Depth-v2和SUN-RGBD数据,室外验证则选用KITTI基准。
【Encoder for Monocular Depth Estimation】
研究团队发现现有编码器存在"视野狭窄"缺陷。通过对比实验证明,引入GIA单元后的特征图在边界保持指标(Boundary IoU)提升12.7%,验证全局信息引导的有效性。
【Problem Definition】
将深度预测数学建模为概率分布优化问题。创新性地提出分箱宽度动态调节公式:bfinal=αbinit+(1-α)ΣbIAFF,其中α为可学习参数,实现"软性"分箱调整。
【Datasets】
在包含464个室内场景的NYU-Depth-v2数据集上,GRdepth的RMSE达到0.127m,较基线模型提升23%。特别在光照复杂的浴室场景,深度误差降低达31%。
【Conclusion】
该研究突破性地实现三个"首次":首次在CLSF单元中实现跨尺度注意力融合;首次采用分箱宽度迭代调节机制;首次用全局平均 pooling替代mini-ViT生成分箱嵌入。这些创新使网络参数量减少18%的同时,推理速度提升1.7倍。
讨论部分指出,GRdepth的"双轮驱动"架构——CLSE保证全局特征不丢失,IRD确保局部细节精确——为MDE领域提供新范式。特别是在医疗影像三维重建中,其亚毫米级精度展现出转化应用潜力。未来可通过引入神经辐射场(NeRF)进一步提升连续深度预测能力。这项来自中国的研究,正为计算机视觉装上"空间感知"的新引擎。
生物通微信公众号
知名企业招聘