
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于增益调制的稳定突触适应性行为机制及其在神经形态计算中的应用
【字体: 大 中 小 】 时间:2025年09月08日 来源:Neural Networks 6.3
编辑推荐:
本研究针对生物神经网络快速适应行为的机制难题,提出了一种基于增益调制(Gain Modulation)的动态重配置模型。研究人员通过构建增益调制递归神经网络(GM-RNN),在保持突触稳定的前提下实现了上下文学习(ICL),成功在MuJoCo蚂蚁导航等任务中验证了神经形态控制能力。该研究为理解生物智能的快速适应机制提供了新视角,同时为开发低功耗神经形态芯片奠定了理论基础。
在生物智能研究领域,动物和人类展现出的快速行为适应能力长期困扰着科学家。传统理论将这种行为归因于突触可塑性(synaptic plasticity),但越来越多的证据表明,这种毫秒级的适应速度可能源于神经网络的动态重配置。这一现象在人工智能领域也有对应体现——Transformer模型展现出的上下文学习(In-Context Learning, ICL)能力,但其生物合理性一直存在争议。
为破解这一谜题,Cristiano Capone和Luca Falorsi团队创新性地将目光投向神经元的增益调制机制。金字塔神经元通过树突分隔(dendritic segregation)和顶端树突输入实现的增益控制,为快速行为适应提供了天然的解释框架。研究人员提出的"虚拟权重"概念,巧妙地将传统上属于突触层面的学习过程,转化为神经网络活动的动态编码问题。
研究团队采用算法蒸馏(Algorithmic Distillation)方法,通过两阶段训练构建了增益调制递归神经网络架构。第一阶段利用随机RNN提取任务特征,第二阶段通过固定突触连接,仅依靠活动依赖的增益调制实现动态适应。在时序轨迹预测任务中,网络仅需5个训练频率就能泛化到未知频率;在强化学习实验中,增益调制网络在训练位置(ID)和未知位置(OOD)都展现出超越传统策略梯度的性能。特别在MuJoCo蚂蚁导航任务中,通过增益调制实现的元策略网络,仅用500个循环单元就完成了复杂运动控制。
关键技术方法包括:1) 增益调制储备池计算(GM-RC)框架,模拟金字塔神经元的树突整合;2) 虚拟权重动态编码技术,将学习算法转化为神经活动;3) 基于策略梯度的分层强化学习架构;4) 使用25维高斯激活函数编码空间位置信息。
研究结果部分显示:
时序轨迹动态适应:网络在闭环测试中实现0.055rad/s频率精准追踪,MSE误差较传统方法降低30%
增益调制在强化学习中的作用:γ=1的调制网络在100轮后遗憾值(log regret)比无调制网络(γ=0)降低2.3倍
时空信用分配机制:通过τe=-1/log(γd)实现延迟奖励回溯
机器人控制应用:在27维状态空间和8维动作空间的MuJoCo环境中实现目标导向导航
这项发表在《Neural Networks》的研究,首次在理论层面统一了生物神经网络和人工智能中的快速适应机制。其提出的增益调制框架不仅解释了金字塔神经元通过顶端树突实现情境编码的生物学原理,还为开发新一代神经形态芯片提供了设计范式。这种不依赖突触可塑性的"纯活动"学习机制,将显著降低神经形态硬件的能耗,在自适应机器人、脑机接口等领域具有重要应用前景。研究同时提示,神经系统可能通过γ振荡等增益调制机制,在多个时间尺度上实现记忆与适应的统一。
生物通微信公众号
知名企业招聘