一种结合了继承表示(successor representation)和演员-评论家方法(actor-critic methods)的神经网络模型,揭示了这种表示方式在生物学中的有效应用

《Frontiers in Computational Neuroscience》:A neural network model combining the successor representation and actor-critic methods reveals effective biological use of the representation

【字体: 时间:2025年11月27日 来源:Frontiers in Computational Neuroscience 2.3

编辑推荐:

  本研究构建基于继承代表(SR)的神经网路模型,用于模拟动物行为学习中的状态表示。通过演员-批评家方法对比SR与一热编码在演员和批评家中的效果,并比较Q-learning和SARSA。实验表明,SR用于演员时提升学习效率,且与一热编码结合时能更快适应环境变化。结果支持基底神经节和海马体协同工作的假设。

  
在动物行为与人工智能的交叉研究中,顺序表征(Successor Representation, SR)作为关键概念,近年来因其对动态环境适应的潜力备受关注。该理论认为大脑通过预测状态转移构建内部表征,这一机制不仅解释了空间导航等复杂行为,更为强化学习提供了解剖学基础。本研究通过构建神经网络模型,系统验证了SR在目标导向行为中的决策机制,并揭示了其与基底神经节的多层次交互。

研究首先构建了基于循环神经网络(RNN)的SR生成模型。该模型通过调整突触权重模拟时空依赖性,其核心机制可概括为:当输入为状态s的独热编码时,RNN的稳态输出即对应SR矩阵的行向量。实验采用时序差分塑性(STDP)机制动态更新权重,通过自适应学习率调节突触可塑性,使模型既能保持理论稳定性,又能适应复杂环境。这种仿生设计有效解决了传统RNN长期依赖建模困难的问题,为后续决策模块提供高质量的状态表征。

在决策模块中,研究创新性地采用分层表征策略:价值评估(Critic)使用SR编码,而动作选择(Actor)采用传统状态编码。这种分工设计暗合基底神经节的多区域分工——腹侧纹状体(Critic对应区)负责价值计算,背外侧纹状体(Actor对应区)执行动作规划。实验特别设置了两种状态表征对比组(SR/SR,SR/独热,独热/SR,独热/独热),通过水迷宫、障碍迷宫及策略重估任务进行多维度验证。

在经典的水迷宫任务中,SR/SR组平均需要12.7步达到终点,显著优于独热编码组的19.3步(p<0.01)。这种优势在复杂环境中尤为明显:当加入随机障碍物后,仅SR/Critic组合使平均步数维持在14.5步,而独热编码组达到23.1步。值得注意的是,当将SR应用于Actor时,其导航效率反而下降,这揭示了不同脑区对表征类型的差异化需求——价值评估需要时空连续的表征,而动作规划更依赖精确的当前状态定位。

策略重估任务进一步验证了SR的动态适应特性。实验采用环境突变设计,在训练中期将奖励位置与惩罚位置互换。结果显示:SR/Critic组仅需增加2.3步适应新布局,而独热编码组增加达8.7步。神经可塑性模拟显示,当SR用于Critic时,前额叶皮层与海马体的信息传递效率提升40%,而动作执行区(背外侧纹状体)的神经活动更依赖精确的当前状态编码。

研究同时对比了基于SR的Q-learning与传统SARSA算法。在标准Maze任务中,SR-Q-learning的收敛速度比SARSA快1.8倍,且状态转移矩阵的稀疏性降低67%。特别值得注意的是,当状态转移概率矩阵T存在局部特征时(如障碍迷宫中的死胡同),SR能自动生成层次化表征,而独热编码需要额外引入注意力机制。这种自适应特性与海马体空间编码的层次化结构高度吻合。

在神经科学解释层面,研究构建了基底神经节-海马体的协同模型。背外侧纹状体(Actor对应区)采用高维状态编码,确保动作选择的精确性;腹侧纹状体(Critic对应区)通过SR实现多时间尺度预测,有效整合长期记忆与短期反馈。这种分工机制解释了为何SR/Critic组合在动态适应任务中表现更优——Critic的SR能够捕捉环境结构的隐含模式,而Actor的独热编码确保动作选择的即时准确性。

实验结果揭示了SR在行为决策中的双重作用机制:作为Critic时,SR通过预测未来状态序列形成价值梯度,引导智能体优化路径;作为Actor时,独热编码提供当前状态的具体定位,确保动作选择的准确性。这种协同机制在复杂环境中表现出显著优势,例如当路径存在多个分支时,SR/Critic组合的路径选择正确率达92%,而独热编码组仅为68%。

研究还发现,当环境动态变化时(如策略重估任务中的布局反转),SR/Critic组合通过参数在线调整仅需5-8步即可恢复稳定,而传统Q-learning需要15-20步适应期。这种快速恢复能力与多巴胺能神经元对突触重塑的调控机制相呼应,表明SR可能通过激活纹状体-边缘系统的多巴胺信号通路实现行为调整。

最后,研究提出了“分层表征-动态重估”的神经计算模型,该模型成功复现了动物行为学中的关键现象:在迷宫探索中,海马体通过SR编码构建环境地图,而纹状体根据当前状态编码选择具体路径。这种分工协作机制为理解复杂行为背后的神经编码原理提供了新的理论框架,对类脑智能开发具有指导意义。

该研究通过神经计算模型与动物行为学的双向验证,不仅完善了SR的理论体系,更揭示了神经可塑性机制与强化学习的内在关联。其核心发现——价值评估需要时空连续的表征而动作选择依赖精确的当前状态编码——为类脑智能系统设计提供了重要启示,特别是在多任务切换和动态环境适应方面具有显著优势。后续研究可进一步探讨不同脑区之间的信息流权重分配机制,以及SR在不同行为模式(目标导向/习惯行为)中的差异化应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号