一种新型的高能效尖峰变压器网络,用于通过跨模态知识蒸馏从事件相机中获取深度估计信息
《Neurocomputing》:A novel energy-efficient spike transformer network for depth estimation from event cameras via cross-modality knowledge distillation
【字体:
大
中
小
】
时间:2025年10月10日
来源:Neurocomputing 6.5
编辑推荐:
提出基于事件的Transformer网络(SDT)用于深度估计,通过纯脉冲驱动架构、多阶段特征融合头和跨模态知识蒸馏,在合成与真实数据集上实现显著性能提升(绝对相对误差降低49%)和能耗优化(降低82.9%),参数量减少42.4%。
深度估计是计算机视觉中的关键任务,广泛应用于自动驾驶、机器人、农业监测和环境分析等领域。传统深度估计方法通常依赖于标准帧式摄像头与人工神经网络(ANNs)结合,但这些方法存在延迟、能耗和动态范围的局限性。而事件摄像头作为一种新兴技术,能够异步捕获每个像素的亮度变化,具有高时间分辨率、低延迟、低能耗和宽动态范围等优势,为深度估计提供了新的可能性。
然而,事件摄像头产生的数据是异步的二进制脉冲流,这使得传统的基于图像的深度估计方法难以直接应用。同时,由于事件数据的特殊性,现有的SNN(脉冲神经网络)在处理这类数据时也面临挑战,如缺乏专门设计的SNN骨干网络,以及在复杂视觉任务中SNN性能通常不如其ANN对应物。此外,事件数据的标记数据稀缺,进一步限制了模型的训练和泛化能力。
为了解决这些问题,本文提出了一种新颖的基于脉冲驱动的Transformer网络(SDT),旨在通过跨模态知识蒸馏技术,将视觉基础模型(如DINOv2)的高级特征提取能力与SNN的生物效率相结合。SDT模型由三个核心组件构成:(1)一个完全基于脉冲的Transformer架构,通过精心设计的基于脉冲的注意力机制和残差连接,减少了计算能耗并保持了对长程依赖的高效捕捉;(2)一个融合深度估计头部,结合多个Transformer阶段的特征进行精细深度预测,避免了传统卷积网络在下采样过程中丢失关键空间信息的问题;(3)一个单阶段的跨模态知识蒸馏框架,通过从DINOv2等大规模视觉基础模型中获取知识,提升SNN在有限数据下的训练效果。
在深度估计任务中,SNN的性能提升依赖于有效的特征提取和处理机制。本文提出的SDT模型通过采用基于脉冲的Transformer结构,显著降低了能耗,同时保持了较高的精度。实验结果显示,SDT在合成数据集(如DENSE)和真实事件数据集(如DSEC)上均表现出色,其绝对相对误差(Abs Rel.)减少了49%,平方相对误差(Sq Rel.)减少了39.77%。此外,SDT模型的能耗降低了70.2%,从41.77 mJ减少到12.43 mJ,模型参数减少了42.4%,从35.68 M减少到20.55 M。这些成果表明,SDT模型在资源受限的环境中具有显著优势。
SDT模型的结构设计考虑了事件数据的特性,通过结合卷积、批量归一化和多步LIF(漏电积分-放电)操作,实现了对事件数据的有效处理。其中,Spiking Patch Embedding模块将输入事件序列转换为可由Transformer处理的脉冲形式,而Spiking Transformer Block则集成了基于脉冲的自注意力(SSA)和基于脉冲的MLP(多层感知机)模块,以实现高效的特征处理。此外,融合深度估计头部通过多尺度特征整合,保留了高分辨率结构细节和全局语义信息,从而提升了深度估计的准确性。
为了应对事件数据标记不足的问题,本文提出了一种单阶段的跨模态知识蒸馏框架,利用DINOv2等大规模视觉基础模型的特征表示能力,指导SNN的训练。该框架通过结合特征感知损失(Lp)和尺度不变的L2损失函数,确保了SNN能够学习到与教师模型相似的特征模式,同时解决了单目深度估计中的尺度模糊问题。实验结果表明,该方法不仅在精度上优于传统模型,还在计算效率上表现出色,特别是在低光照环境和复杂场景中,SDT模型能够更准确地捕捉远处物体的深度信息,保持了较高的边缘清晰度和结构细节。
尽管SDT模型在多个方面取得了显著进展,但其仍存在一些局限性。首先,模型的性能高度依赖于知识蒸馏过程,这在没有合适教师模型的情况下可能限制其应用。其次,训练更大规模的模型或处理更大数据集会显著增加计算成本和内存占用,可能影响训练的稳定性。此外,事件数据集的规模和场景多样性仍不如传统的RGB数据集,这限制了模型的扩展性和泛化能力。最后,在严格事件驱动的加速器上,基于MAC(乘法-累加)的融合头部可能成为性能瓶颈,因为其保留了连续数值精度,破坏了纯脉冲计算的完整性。
未来的研究方向包括探索如何在纯脉冲融合机制中实现与当前模型相当的精度,这可能需要在脉冲计算的精度方面进行根本性改进。此外,将SDT模型部署到专门的SNN处理器上,并在更多样化的数据集上进行验证,将有助于进一步提升其在实际应用中的表现。这些研究不仅有助于推动SNN在深度估计任务中的发展,也为更广泛的神经形态计算提供了新的思路。
总之,本文提出的SDT模型通过结合脉冲神经网络与Transformer架构,实现了在事件摄像头数据上的高效深度估计。该模型在降低能耗的同时,保持了较高的精度,为资源受限环境下的视觉任务提供了可行的解决方案。同时,通过知识蒸馏技术,SDT模型能够在有限的标记数据下实现有效的训练,拓展了SNN在深度估计中的应用潜力。这些成果标志着神经形态计算在实际视觉任务中的重要进展,为未来的智能系统设计提供了新的方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号