
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于脉冲时序依赖可塑性的小脑强化学习理论:从离散动作空间到连续状态评估的脉冲神经网络实现
【字体: 大 中 小 】 时间:2025年09月19日 来源:PNAS Nexus 3.8
编辑推荐:
本刊推荐:为解决小脑传统监督学习(SL)理论与新发现多突触可塑性机制间的理论鸿沟,研究人员开展小脑脉冲神经网络实现强化学习(RL)的理论建模研究。研究基于actor-critic框架构建生物约束的脉冲网络模型,首次实现小脑在连续时空中的TD(λ)学习,成功解决mountain car任务并重现delay eyeblink conditioning任务的生物可观测现象。该研究为小脑作为RL机器提供首个脉冲级计算证据,挑战了经典的Marr-Albus-Ito模型,为理解小脑整合SL与RL机制开辟新范式。
在神经科学领域,小脑长期以来被视为执行误差驱动监督学习的精密计算器官。经典的Marr-Albus-Ito理论模型提出,攀爬纤维(climbing fibers, CF)传递误差信号,通过诱导平行纤维(parallel fibers, PF)与浦肯野细胞(Purkinje cells, PCs)突触的长时程抑制(long-term depression, LTD)来实现运动学习。然而随着多种突触可塑性机制的发现,研究者开始思考小脑是否具备更复杂的学习能力。特别是强化学习(reinforcement learning, RL)理论为理解小脑功能提供了新视角——小脑可能通过评估行为后果的奖励信号来优化运动控制,而不仅仅是依赖外部教师信号。
传统RL模型需要显式计算时序差分误差(temporal difference error, TD error),但小脑中并未发现明确的TD误差计算单元。Yamazaki和Lennon曾提出概念性假设:分子层中间神经元(molecular layer interneurons, MLIs)可能承担批评家(critic)角色评估状态价值,PCs作为执行者(actor)选择动作,CF则传递奖励信息。然而这一理论缺乏详细的脉冲神经网络实现,难以验证其生物学合理性。为了解决这一理论空白,研究人员在《PNAS Nexus》发表了这项开创性研究,首次构建了基于生物物理约束的小脑脉冲神经网络RL模型。
研究采用基于连续时间的脉冲actor-critic框架,主要技术方法包括:1)构建基于泄漏积分发放(Leaky Integrate-and-Fire, LIF)模型的神经元网络,包含浦肯野细胞(PCs)、篮状细胞(BCs)、星状细胞(SCs)等主要细胞类型;2)设计二维苔状纤维(PF)平面进行状态编码,采用感受野覆盖机制实现连续状态空间到脉冲发放的转换;3)创新性地推导出基于资格迹(eligibility trace)的权重更新规则,避免显式TD误差计算;4)通过mountain car任务和delay eyeblink conditioning任务验证模型性能;5)采用向前欧拉法进行数值求解,时间分辨率为1.0 ms。
Spike-based implementation of cerebellum-style RL
研究构建的小脑网络模型中,PF传递状态信息,CF编码负奖励信号。星状细胞(SCs)作为批评家表征倒置符号的状态价值-V(t),浦肯野细胞(PCs)作为执行者表征动作回避倾向。模型采用分组抑制架构:篮状细胞(BCs)和PCs被分为多个组别,组内和组间通过抑制性连接形成竞争机制。这种设计使得单个PC群组能够产生"凹陷"(dent)活动模式,实现动作选择。
Representation of states and rewards
状态表征采用经典的Marr-Albus-Ito模型框架,将PF排列在二维网格平面上。每个网格单元具有独立的感受野,根据观测状态确定PF发放率。奖励信号被建模为负值,CF活动表示为脉冲序列缩放形式:CF(t)=-r? SCF(t),其中r?为任务特异性负常数。
Critic
SCs群体活动近似表征倒置状态价值:-V(t)=νSC(t)-V0,其中ν为缩放因子,V0为状态价值基线。SCs的时间活动通过双时间常数微分方程计算,分别处理脉冲发放的上升和衰减过程。
Actor and action selection
PCs活动被解释为动作回避信号,最终动作选择由回避程度最低的动作决定:a(t)=argminα∈A hα?(t)。这种机制通过PCs与BCs之间的抑制环路实现,使得单个群组能够暂停活动形成"凹陷"。
Weight-update rules
研究推导出新的权重更新规则,基于资格迹机制避免显式TD误差计算。PF-SC和PF-PC突触的更新规则分别表示为:
dΔwi,jn/dt = CF(t)zi,j(t) - (τr-τz)/(τrτz)V(t)zi,j(t) + V(t)fi,j(t)
dΔwi,jn/dt = -CF(t)zi,j(t) + (τr-τz)/(τrτz)V(t)zi,j(t) - V(t)fi,j(t)
这一规则符合小脑突触可塑性的生物学观察:PF与CF联合激活诱导PF-SC突触LTP,PF单独激活诱导LTD;PF-PC突触则相反。
Simulation of Mountain Car Task
在mountain car任务中,早期阶段车辆被困谷底无法到达目标。经过数百次训练后,模型学会利用斜坡加速策略成功到达目标。SCs表征的-V(t)从学习前的噪声状态转变为学习后的有序变化:初始值较高并随时间递减。成功率在600次训练后稳定在80%左右,证明模型能够有效解决RL任务。
Simulation of Delay Eyeblink Conditioning Task
在眨眼条件反射任务中,早期阶段代理因眼睑睁开受到惩罚。随着学习进行,抗睁开PC群组活动增强,抗闭合PC群组在US前出现暂停,眼睑在US前开始闭合。单个PC神经元在US前出现特征性暂停行为,与生物实验观察一致。SCs活动在早期表现为向US时间递增的斜坡活动,成功避免惩罚后回归基线。去除PF-SC可塑性后,模型无法产生稳定的闭合反应,眼睑闭合时间延迟,与MLI功能受损的实验结果相符。
研究结论表明,小脑脉冲神经网络能够在actor-critic框架下实现强化学习。SCs作为批评家表征状态价值,PCs作为执行者表征动作回避,CF传递负奖励信息。模型成功解决了标准RL任务并重现了小脑依赖性运动学习任务的生物可观测现象。讨论部分指出,小脑可能同时整合SL和RL机制:单个CF可能同时传递评估性和教导性信号,或者不同微区分别专门处理RL和SL。这种协同机制可增强小脑的学习能力,实现更快速、平滑的复杂运动认知任务。
该研究的重要意义在于提供了首个支持小脑RL理论的脉冲级计算实现,挑战了传统的小脑纯监督学习观点。提出的权重更新规则避免了显式TD误差计算,更符合小脑的生物学约束。模型在保持生物合理性的同时解决了经典RL任务,为理解小脑与基底神经节在分层强化学习中的协同作用奠定了基础。未来研究可扩展至连续动作空间和更复杂任务,进一步探索小脑在多模态学习中的计算原理。
生物通微信公众号
知名企业招聘