
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双分支特征融合的轻量化自监督单目深度估计方法DFF-Mono
【字体: 大 中 小 】 时间:2025年07月22日 来源:Disease-a-Month 3.8
编辑推荐:
针对自监督单目深度估计中计算复杂度高、难以部署于移动平台的问题,研究人员提出DFF-Mono框架,集成双核膨胀卷积(DKDC)和注意力引导大核Inception(ALKI)模块,通过双分支特征融合(DFF)架构和频域优化策略,在降低23%参数量的同时提升深度估计精度,为资源受限场景提供高效解决方案。
在自动驾驶、机器人和AR/VR等领域,精确的深度感知是环境理解的核心挑战。传统方法依赖昂贵的LiDAR或深度相机,而基于深度学习的单目深度估计技术虽能降低硬件依赖,却面临模型复杂度与计算效率的固有矛盾。现有方法如CNN编码器-解码器框架存在计算冗余,Transformer架构则因二次复杂度增长难以轻量化。尤其对于资源受限的移动平台,如何在保证精度的同时实现高效计算成为亟待突破的瓶颈。
针对这一难题,西北工业大学自动化学院的研究团队提出了一种创新性解决方案——DFF-Mono。该框架通过双核膨胀卷积(Dual-Kernel Dilated Convolution, DKDC)模块与双分支特征融合(Dual-branch Feature Fusion, DFF)架构的协同设计,结合注意力引导大核Inception(ALKI)模块和频域优化策略,在KITTI等标准数据集上实现了精度与效率的双重突破。相关成果发表在《Disease-a-Month》期刊。
研究团队主要采用三项关键技术:1)DKDC模块结合3×3膨胀核与逐点卷积,提升多尺度特征编码效率;2)ALKI模块通过多分支大核卷积实现局部-全局注意力引导的特征提取;3)自适应高斯低通滤波的频域优化策略,平衡光度损失中的高频像素梯度。这些方法均未引入额外参数,符合轻量化设计原则。
实验结果
在KITTI数据集上的测试表明,DFF-Mono的绝对相对误差(AbsRel)较现有最优方法降低12%,模型参数量减少23%。跨数据集验证(Make3D和DIML)显示其强泛化能力,特别是在纹理缺失区域的深度预测稳定性显著提升。
结论与意义
该研究首次将双分支特征融合架构与频域优化策略结合,为自监督单目深度估计提供了轻量化新范式。其核心创新点包括:1)DKDC模块通过互补感受野增强特征表征;2)DFF架构集成ALKI的局部特征提取与卷积加法变换器(CAT)的全局上下文建模;3)无参数的频域优化策略有效缓解高频噪声干扰。这些突破不仅推动了移动端三维感知技术的发展,也为边缘计算场景下的实时环境理解提供了可行路径。未来工作可进一步探索动态场景下的时序一致性增强机制。
生物通微信公众号
知名企业招聘