SE-SNN:基于挤压与激增强化且具可学习神经元动力学的脉冲神经网络用于事件驱动视觉

《Biomimetics》:SE-SNN: Squeeze-and-Excitation-Enhanced Spiking Neural Networks with Learnable Neuron Dynamics for Event-Based Vision

【字体: 时间:2026年06月09日 来源:Biomimetics 3.9

编辑推荐:

  脉冲神经网络(SNNs)已成为高能效神经形态计算的一种有前景的范式,特别是在处理动态视觉传感器(DVSs)产生的异步事件流时。然而,与人工神经网络(ANN)相比,SNNs常受限于表征能力不足和特征重校准欠佳的问题。为应对这些挑战,研究人员提出了SE-SNN,一

  
脉冲神经网络(SNNs)已成为高能效神经形态计算的一种有前景的范式,特别是在处理动态视觉传感器(DVSs)产生的异步事件流时。然而,与人工神经网络(ANN)相比,SNNs常受限于表征能力不足和特征重校准欠佳的问题。为应对这些挑战,研究人员提出了SE-SNN,一种将挤压与激发(SE)模块集成到深度残差SNN中的新型架构,实现在不产生脉冲的情况下进行通道维度注意力机制。此外,研究人员引入了一种鲁棒参数化泄漏整合发放(RobustPLIF)神经元模型,具有可学习的膜时间常数(τ)和发放阈值(vth),使每一层能够自适应地调整时间动力学。该模型在CIFAR10-DVS数据集上进行训练。实验结果表明,SE-SNN在CIFAR10-DVS数据集上以16个时间步长达到了78.8%的准确率,超越了基线SNNs,同时保持了生物合理性和硬件效率。消融研究确认了SE模块和可学习神经元参数对性能提升的各自贡献。
该研究聚焦于事件驱动视觉领域中脉冲神经网络(SNNs)的性能提升问题,发表于《Biomimetics》期刊。研究背景方面,SNNs作为第三代神经网络,以其生物可解释性、低功耗和低延迟特性受到广泛关注。SNNs采用离散脉冲事件进行信息传输,具有稀疏激活特性,能够在空间和时空维度上实现高度稀疏的激活状态,将突触操作能耗降低60-80%。然而,SNNs在复杂视觉任务中的准确率仍落后于传统人工神经网络(ANNs),主要存在两个关键瓶颈:一是神经元的固定动力学无法适应层特异性特征统计;二是缺乏显式的通道间依赖建模机制,而这对判别性特征学习至关重要。

为解决上述问题,研究人员提出了SE-SNN架构,该架构包含三项协同创新:一是设计了一种可学习的鲁棒PLIF神经元(RobustPLIF),其膜时间常数τ和发放阈值vth均为可训练参数,能够自动调整时间整合和脉冲发放行为;二是将挤压与激发(SE)模块集成到SNN残差块中,该模块在膜电位上操作,通过标准可微运算生成通道维度注意力权重;三是在CIFAR10-DVS数据集上达到了当时最先进的准确率。研究结论表明,SE-SNN在保持生物合理性和硬件效率的同时,显著提升了事件驱动视觉任务的性能,未来可扩展至更大规模数据集并在神经形态芯片上进行硬件感知部署。

研究所采用的主要关键技术方法包括:基于SpikingJelly框架实现模型,样本队列来源为CIFAR10-DVS数据集(包含10,000条DVS记录,10个类别,每类1000个样本);采用AdamW优化器结合权重衰减;学习率调度策略为10轮线性预热后接余弦退火;应用Mixup数据增强、指数移动平均(EMA)模型平均策略、梯度裁剪和标签平滑等正则化技术;采用ArcTan代理梯度函数解决脉冲发放函数不可微问题;通过时间最大池化进行时间信息整合。

研究结果部分按照原文结构展开如下:

** RobustPLIF神经元模型**:研究人员提出了一种鲁棒参数化泄漏整合发放(RobustPLIF)神经元模型,其中膜时间常数τ和发放阈值vth均为可学习参数。膜动力学方程为τ(du/dt) = ?(u ? urest) + R·I,其中urest = 0。当膜电位超过可学习阈值vth时,神经元发出脉冲,随后膜电位重置为0。为确保数值稳定性,τ被约束在[1.0, 8.0]区间,vth被约束在[0.2, 0.8]区间。该设计解决了传统LIF神经元固定参数无法适应不同层级特征统计的问题,通过双参数自适应使每层能够独立调节时间平滑性和脉冲敏感性。

** SE-ResNet架构**:针对SNNs的特点,研究人员将SE模块适配为在膜电位上操作而非直接处理二值脉冲。给定形状为[N, C, T, H, W]的中间膜电位张量,挤压操作通过全局平均池化聚合空间信息生成通道描述符;激发操作采用瓶颈架构学习通道间依赖,包含降维和升维两个全连接层,中间通过ReLU激活,最终经Sigmoid函数生成通道权重;缩放操作将学习到的通道权重与原始膜电位进行通道维度相乘,实现特征重校准。每个残差块包含两个卷积层、SE注意力模块和跳跃连接,当空间维度或通道数变化时采用1×1卷积进行维度匹配。

** 时间信息整合策略**:对于具有T个时间步的输入事件流,研究人员采用逐帧独立处理空间网络后通过时间最大池化聚合信息,即H = maxt (f(xt))。该策略强调显著事件同时抑制背景噪声,优于传统的平均发放率编码。聚合特征随后送入包含全连接层、Dropout和PLIF激活的分类头。

** 训练策略**:研究人员采用Mixup数据增强技术,通过Beta分布采样插值系数λ,对两个随机样本及其标签进行线性插值,生成虚拟训练样本以平滑决策边界。同时维护EMA模型,按θEMAβ·θEMA + (1?β)·θ更新,其中衰减率β = 0.995,该EMA模型用于验证和最终评估以提供更稳定的预测。

在** 实验结果**部分,研究展示了以下发现:

** 与最先进方法的比较**:在CIFAR10-DVS数据集上,SE-SNN在16个时间步下达到78.8%的准确率,优于大多数现有直接训练方法。当时间步减少至4时,仍保持76.5%的准确率,表明其具有稳健的时序压缩能力。

** 神经元动力学分析**:可学习参数演化分析显示,不同层级收敛到不同的时间动力学特性:浅层偏好较小的τ值(对边缘特征快速响应),深层采用较大的τ值(对语义特征持续整合);阈值稳定在[0.35, 0.55]范围内,平衡了脉冲稀疏性和信息传输。脉冲活动分析表明,SE模块有效调节通道维度活动,减少15%冗余脉冲的同时保留任务相关信息,整体网络维持23%的中等发放率。

** 鲁棒性评估**:时序分辨率鲁棒性测试显示,从4到16时间步,准确率从65.2%逐步提升至78.8%,16步以上趋于饱和。高斯噪声注入实验表明,随着噪声标准差σ从0.1增至0.5,准确率从77.2%渐变降至70.3%,展现出对事件相机固有传感器噪声的鲁棒性。空间扰动测试(随机擦除和cutout)分别获得77.1%和76.9%的准确率,显示出强空间泛化能力。

** 消融研究**:四项消融实验验证了各组件的有效性:标准LIF替换为PLIF神经元带来2.5%的准确率提升;SE模块集成贡献2.8%的准确率增益;Mixup增强提升1.6%的泛化性能;三者协同结合达到77.5%的准确率,再经EMA策略进一步提升至78.8%。

** 结论**部分原文如下:研究人员提出了SE-SNN,一种将挤压与激发注意力与可学习神经元动力学相结合的新型脉冲神经网络,用于事件驱动视觉。通过在膜电位上操作SE模块并对关键神经元属性进行参数化,该模型在CIFAR10-DVS上取得了最先进的结果,同时保持了SNNs的能量效率和时序编码优势。实验结果验证了所提出的SE-PLIF-SNN架构的有效性。未来工作将包括将该框架扩展至更大规模数据集(如DVS128 Gesture),并探索在Loihi或TrueNorth等神经形态芯片上的硬件感知部署。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号