非极化嵌入学习在多模态领域泛化中的应用

《Neurocomputing》:Nonpolarized embedding learning in multimodal domain generalization

【字体: 时间:2025年10月10日 来源:Neurocomputing 6.5

编辑推荐:

  深度估计是计算机视觉中的关键任务,事件相机因其低延迟、高动态范围和能效优势成为新兴解决方案,但传统方法难以处理脉冲数据的不连续性和稀疏性。本文提出脉冲驱动Transformer网络(SDT),通过脉冲自注意力机制、残差连接和跨模态知识蒸馏,显著提升深度估计精度与能效。实验表明,SDT在合成和真实数据集上分别将绝对相对误差降低49%,平方相对误差降低39.77%,能耗减少70.2%,模型参数减少42.4%。

  深度估计在计算机视觉领域占据着至关重要的地位,其应用范围广泛,包括自动驾驶、机器人技术、农业监测以及环境分析等。随着深度学习技术的不断进步,传统的基于图像的深度估计方法已经取得了显著的成果。然而,这些方法在处理动态范围受限、延迟高以及能耗大的问题时仍然存在不足。近年来,事件相机作为一种新型的视觉传感器,因其能够以异步、稀疏和二进制形式捕捉亮度变化,提供了独特的性能优势。这些特性使得事件相机在实时性和能耗方面优于传统相机,但其产生的数据格式与常规图像不同,使得现有深度估计模型难以直接应用。

为了克服这些挑战,研究者们开始探索将事件相机数据与神经网络相结合的方案,特别是在事件驱动的神经网络(SNNs)领域。SNNs模拟生物神经元的工作方式,通过离散的脉冲信号来传递信息,而不是传统的连续值。这种结构使得SNNs在处理事件数据时具有天然的优势,尤其是在捕捉动态场景的时空特征方面。然而,SNNs在训练过程中面临一个关键问题:由于事件数据的非可微性,传统的基于梯度的反向传播方法无法直接应用于SNNs。此外,事件数据的标注较为稀缺,这进一步限制了SNNs在复杂视觉任务中的表现。

为了弥补这些不足,我们提出了一种全新的基于事件驱动的变压器网络(SDT),结合了SNNs的高效性和基于视觉基础模型(如DINOv2)的丰富特征表示。SDT通过三个核心创新来提升深度估计的性能和效率:首先,它引入了一种完全基于脉冲的变压器架构,利用脉冲注意力机制和残差连接,减少计算资源的消耗,同时保持对长距离依赖关系的高效处理能力;其次,它设计了一个融合深度估计头,通过整合多阶段的特征信息,实现更精细的深度预测,同时确保计算效率;最后,它提出了一种跨模态的知识蒸馏框架,利用预训练的视觉基础模型,即使在数据有限的情况下,也能显著提升SNNs的训练效果。

在实际应用中,事件相机的输出形式决定了其与SNNs的兼容性。传统的深度估计模型通常依赖于固定分辨率的图像数据,而事件数据的动态特性要求模型具备更强的时空处理能力。因此,我们设计了专门的脉冲嵌入模块,将事件数据转换为适用于变压器架构的脉冲令牌,从而保留了时间与空间信息。通过这种方式,我们能够直接处理事件流,避免将事件数据转换为密集图像表示时可能带来的信息损失和计算开销。

为了进一步提升模型的准确性,我们还设计了融合深度估计头。这一模块通过整合多阶段的特征,将高分辨率的局部结构信息与高语义级别的全局信息相结合,从而实现更精确的深度预测。相比之下,传统的单尺度解码器(如FCN)往往无法保留足够的细节信息,导致深度估计结果不够精确。我们的融合头在保持计算效率的同时,显著提升了模型对复杂场景的适应能力,特别是在处理边缘和轮廓等细节方面表现优异。

为了克服训练数据稀缺的问题,我们引入了跨模态知识蒸馏框架。这一框架通过从DINOv2等大型视觉基础模型中获取知识,帮助SNNs在有限的数据条件下实现更高的准确度。知识蒸馏是一种常见的模型压缩技术,通过将教师模型的知识传递给学生模型,使得学生模型在保持轻量化的同时,仍能实现接近教师模型的性能。在我们的方法中,我们采用了融合损失函数,结合了特征感知损失和尺度不变的L2损失,以确保模型在不同场景下的泛化能力。

实验结果表明,我们的方法在合成数据集(如DENSE)和真实世界数据集(如DSEC)上均取得了显著的提升。在DENSE数据集上,我们的方法将绝对相对误差(Abs Rel)降低了49%,平方相对误差(Sq Rel)降低了39.77%,同时将能耗降低了70.2%,参数数量减少了42.4%。这些改进不仅证明了我们方法在准确性上的优势,还突显了其在资源受限环境中的适用性。在DSEC数据集上,我们的方法同样表现优异,尤其是在低光环境下的深度估计任务中,能够更准确地识别远处的物体和道路边的细节结构。

尽管我们的方法取得了显著的成果,但仍存在一些局限性。首先,我们的方法依赖于知识蒸馏,这在某些情况下可能带来训练复杂性,特别是当没有合适的教师模型时。其次,随着模型规模的增加,训练成本和内存需求会显著上升,这可能限制了其在大规模数据集上的应用。此外,事件数据的标注仍然较为有限,这使得模型在不同场景下的泛化能力受到一定影响。最后,尽管我们采用了一些混合计算方法,但这些方法在严格事件驱动的加速器上可能成为性能瓶颈。

未来的研究方向包括进一步探索如何在纯脉冲计算中实现更高的精度,以及评估我们的方法在真实神经形态硬件平台上的表现。例如,SpiNNaker、BrainScales和TrueNorth等平台提供了不同的计算特性,这些特性可能影响模型的实际应用效果。此外,我们的方法在深度估计之外,还可能适用于其他视觉任务,如目标跟踪和运动估计,这些任务同样依赖于事件数据的动态特性。

总的来说,我们的研究为事件驱动的深度估计提供了一种新的解决方案,结合了SNNs的高效计算能力和现代深度学习模型的丰富特征表示。这种方法不仅提升了深度估计的准确性,还显著降低了能耗,使其在资源受限的环境中具有重要的应用价值。未来的工作将继续探索这一方法在更多实际场景中的适用性,并进一步优化其在神经形态硬件上的表现,以推动高效、准确的视觉处理技术的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号