利用负样本中相似且具有代表性的实体来补全知识图谱
《Neurocomputing》:Knowledge graph completion with selecting similar and representative entities of anchors from negative samples
【字体:
大
中
小
】
时间:2025年10月10日
来源:Neurocomputing 6.5
编辑推荐:
深度估计在计算机视觉中至关重要,但传统方法难以处理事件相机产生的脉冲数据。本文提出脉冲驱动的Transformer网络(SDT),通过脉冲自注意力机制、多阶段特征融合头和跨模态知识蒸馏框架,在DENSE和DSEC数据集上实现显著提升:绝对相对误差降低49%,平方相对误差降低39.77%,能耗减少82.9%。脉冲Transformer采用LIF神经元模拟脉冲生成,通过ConvBN和MLIF组合实现特征提取,并利用DINOv2预训练模型进行知识蒸馏。融合头整合多尺度特征,解决传统CNN在事件数据中的信息丢失问题。实验表明,SDT在保持低功耗(12.43 mJ/推理)的同时,参数量减少42.4%,达到20.55 M,适用于自动驾驶和机器人等实时应用。
深度估计在计算机视觉中扮演着至关重要的角色,其应用范围涵盖了自动驾驶、机器人技术、农业监测以及环境分析等多个领域。随着深度学习技术的不断进步,传统的基于帧的图像处理方法已经取得了显著成果,但这些方法在处理事件相机数据时存在一些固有的局限性,例如延迟高、能耗大以及动态范围受限。事件相机作为一种新兴的传感器技术,能够以异步方式捕捉每个像素亮度变化,从而提供高时间分辨率、低延迟、低能耗以及宽动态范围的输出。这种特性使其在需要实时响应和低功耗的场景中具有独特的优势。然而,事件相机产生的数据形式与传统图像不同,通常表现为稀疏的二进制脉冲流,这对传统的深度学习模型提出了新的挑战。
为了克服这些挑战,研究者们开始探索将事件相机数据与神经网络结合的新方法,其中Spiking Neural Networks(SNNs)因其在处理脉冲数据方面的潜力而受到关注。SNNs模仿生物神经元的工作方式,通过离散的脉冲信号传递信息,而不是传统的连续值。这种特性使得SNNs在处理事件相机数据时更加自然。然而,SNNs在训练过程中面临一些问题,例如脉冲数据的非可微性使得无法直接使用梯度下降法进行训练,以及事件数据的稀疏性和小规模导致模型容易过拟合。
为了应对这些挑战,本文提出了一种新的能量高效的Spike-Driven Transformer网络(SDT),该网络结合了事件数据的独特属性和现代深度学习架构的优势。SDT通过三个关键创新点来提升深度估计的性能和效率:首先,设计了一种完全基于脉冲的Transformer架构,采用脉冲注意力机制和残差连接,以减少计算能耗同时保持对长距离依赖的捕捉能力;其次,开发了一种融合深度估计头,通过整合多个Transformer阶段的特征来实现精确的深度预测,同时确保计算效率;最后,引入了一种跨模态的知识蒸馏框架,利用预训练的视觉基础模型(如DINOv2)来增强SNN的训练效果,即使在数据稀缺的情况下也能提升模型的泛化能力。
事件相机的数据结构具有独特的异步性和稀疏性,这与SNNs的处理方式高度契合。因此,基于SNNs的深度估计方法能够更有效地利用这些数据的时空特性,而无需将事件数据转换为密集的帧表示。这种转换通常会带来信息损失和额外的计算开销,而SDT则通过直接处理脉冲数据,避免了这些问题。此外,SNNs本身具有时间处理的特性,能够通过膜动态整合信号,使得它们在捕捉事件数据中的运动信息方面具有优势。这种时间特性使得SNNs在处理需要快速响应和低延迟的任务时更具竞争力。
然而,尽管SNNs在理论上具有优势,其实际应用仍面临诸多挑战。其中,一个主要问题是SNNs在训练过程中难以达到与传统人工神经网络(ANNs)在非脉冲数据上的性能水平。由于脉冲数据的非可微性,传统的梯度下降算法无法直接用于SNNs的训练。为了解决这一问题,研究者们尝试将ANNs转换为SNNs,但这一过程可能会引入不确定性或丢失脉冲的时间信息。此外,事件数据的标注较为困难,导致训练数据量有限,这进一步限制了SNNs的泛化能力。
为了提升SNNs在事件数据上的性能,本文提出了一种跨模态的知识蒸馏框架,将预训练的视觉基础模型(如DINOv2)的知识转移到SNN中。DINOv2是一种基于Transformer架构的视觉基础模型,它在大规模数据集上进行了自监督训练,具备强大的特征提取能力,尤其在深度估计任务中表现优异。通过知识蒸馏,SNN能够从DINOv2中学习到更丰富的特征表示,即使在有限的事件数据下也能实现较高的准确性。该框架通过融合感知损失和尺度不变的L2损失函数,确保SNN在学习过程中不仅关注特征的相似性,还能够处理深度估计中的尺度不确定性问题。
在模型设计方面,SDT采用了基于脉冲的Transformer块和融合深度估计头,以实现高效的特征处理和精确的深度预测。其中,基于脉冲的Transformer块利用了Spiking Self-Attention(SSA)和Spiking MLP(SMLP)机制,以减少计算资源的消耗并提高处理效率。而融合深度估计头则结合了多个Transformer阶段的特征,通过混合的卷积操作和上采样过程,保留了深度估计所需的数值精度。这种设计不仅提升了模型的准确性,还确保了其在资源受限环境中的适用性。
实验结果显示,SDT在合成数据集(DENSE)和真实数据集(DSEC)上的表现均优于现有的方法。在DENSE数据集上,SDT的绝对相对误差(Abs Rel)和平方相对误差(Sq Rel)分别比Spike-T模型降低了49%和39.77%,同时将能量消耗减少了70.2%。在DSEC数据集上,SDT的性能同样表现出色,尤其是在低光照条件下的深度估计任务中,能够准确捕捉远处的物体和细小的结构,例如路边的树木和房屋。此外,SDT的参数数量相比Spike-T减少了42.4%,进一步增强了其在实际部署中的可行性。
尽管SDT在多个方面展现了优势,但其仍然存在一些局限性。首先,模型的性能高度依赖于知识蒸馏过程,这可能在缺乏合适教师模型的情况下带来挑战。其次,随着模型规模的增加或数据量的扩大,训练成本和内存占用会显著上升,这可能会影响模型的可扩展性。此外,目前公开的事件相机深度数据集在规模和场景多样性方面仍较为有限,这限制了模型的进一步优化和泛化能力。最后,尽管SDT在推理过程中具有较高的能效,但在某些严格依赖事件驱动的加速器上,其基于MAC的融合头可能会成为性能瓶颈。
未来的研究方向可以包括探索如何在不依赖知识蒸馏的情况下提升纯脉冲融合机制的准确性,以及评估SDT在神经形态硬件平台上的实际表现。例如,SpiNNaker、BrainScales或TrueNorth等硬件平台能够提供对脉冲计算的支持,进一步验证SDT在实际应用中的潜力。此外,SDT的高效特性也使其在其他计算机视觉任务中具有应用前景,如目标跟踪和运动估计等。通过结合SNNs的生物启发特性和现代深度学习架构,SDT为事件相机数据的处理提供了一种新的解决方案,为神经形态计算在现实场景中的应用奠定了基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号