
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多尺度融合局部平面估计的高效单目深度估计网络LMNet
【字体: 大 中 小 】 时间:2025年06月26日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对单目深度估计中局部细节生成效率低和深度表示范围扩展困难两大挑战,研究人员提出融合多尺度注意力机制(MAF)的局部平面估计网络(LMNet)。通过LPE模块实现几何参数化局部深度恢复,结合MAF模块自适应融合跨尺度特征,在NYU Depth V2数据集上RMSE降低15.05%,模型压缩至11.3MB,为自动驾驶等场景提供高效高精度深度估计方案。
在自动驾驶和三维重建领域,单目深度估计如同让机器获得"立体视觉"的能力。然而现有方法如同近视者观察世界:要么耗费巨大算力捕捉局部细节(像素级密集计算),要么难以分辨远近景深(全局表征能力弱)。这种矛盾在复杂场景中尤为突出——当算法试图看清眼前树叶纹理时,远处的建筑物轮廓便模糊不清;而扩大视野范围又会导致计算资源爆炸性增长。
为解决这一困境,研究人员开发了基于多尺度融合的局部平面估计网络LMNet。该研究创新性地将几何先验引入深度估计,通过参数化平面方程替代传统像素级回归,如同用数学公式描述物体表面而非逐点测量。实验表明,LMNet在NYU Depth V2数据集上不仅将RMSE误差降低15.05%,更将模型体积压缩至11.3MB,在高分辨率HRWSI数据集上实现90.9ms的实时推理速度,展现出"既快又准"的突破性优势。
关键技术方法
研究采用U型架构,编码器使用堆叠Transformer块提取多尺度全局特征;解码器创新设计包括:1)局部平面估计(LPE)模块,通过可学习参数生成平面方程恢复深度细节;2)多尺度注意力融合(MAF)模块,利用Softmax加权跨尺度特征。测试数据来自NYU Depth V2、KITTI及HRWSI数据集,采用零样本评估验证泛化能力。
研究结果
局部平面估计模块设计
LPE模块通过三步实现高效深度恢复:首先用卷积降维减少冗余,随后通过参数化平面方程计算基础深度,最后添加残差深度修正误差。这种"参数方程+微调"的策略,相比传统方法减少38%的计算量,同时保持局部结构完整性。
多尺度注意力融合机制
MAF模块构建跨尺度深度张量,通过注意力权重动态分配特征贡献度。实验显示该机制使远距离物体识别准确率提升21%,且有效抑制了多尺度融合中的特征冲突噪声。
整体性能对比
在NYU Depth V2基准测试中,LMNet以0.128的RMSE超越NeWCRFs等主流方法,推理速度达17fps。零样本测试中,HRWSI数据集上0.355的RMSE证明其强大的泛化能力,特别在建筑物边缘等复杂区域保持结构连续性。
结论与展望
该研究通过LPE与MAF模块的协同设计,实现了单目深度估计领域"鱼与熊掌兼得"的突破:既保持轻量化(模型仅11.3MB)又提升精度(RMSE降低15%)。参数化局部平面估计开创了几何先验与深度学习结合的新范式,而动态多尺度融合机制为跨距离场景理解提供通用框架。未来研究可探索该架构在立体匹配、光流估计等三维视觉任务的迁移应用,进一步拓展其在医疗影像分析等领域的潜力。
生物通微信公众号
知名企业招聘