海马-纹状体回放优先更新“预测误差”而非“奖赏本身”:强化学习离线巩固新机制

《Nature Communications》:Post-learning replay of hippocampal-striatal activity is biased by reward-prediction signals

【字体: 时间:2025年11月25日 来源:Nature Communications 15.7

编辑推荐:

  为厘清“离线回放究竟优先巩固哪些经历”,研究团队设计可分离奖赏与奖赏预测误差(RPE)的迷宫任务,结合Q-learning建模与海马-腹侧纹状体同步记录,发现只有RPE偏倚的回放能显著提升模型预测力,且体内仅高RPE相关的神经耦合在任务后被优先再激活。该工作首次行为-计算-电生理三重验证RPE驱动回放,为理解睡眠中记忆决策优化提供新框架。

  
在迷宫里跑一圈拿到糖,大鼠为什么会记得“下次还走这条臂”?传统观点说,因为糖就是“正强化”,大脑趁睡觉多回放几次“有糖”片段即可。然而现实远比一颗糖复杂:如果某条臂90%概率给糖,偶尔没给,这种“出乎意料”的落差——奖赏预测误差(reward-prediction error, RPE)——才是强化学习(reinforcement learning)更新价值地图的核心信号。可离线回放到底优先照顾“糖”还是“落差”?过去研究因任务设计把奖赏与RPE混为一谈,留下空白。
为拆奖与误差,Roscow等把6只成年雄性Lister hooded大鼠放进三臂迷宫,设定高、中、低三条臂的糖概率分别为75%/50%/25%(后期调至87.5%/50%/12.5%并做反转)。同一动物在“大概率臂得糖”时RPE低,在“小概率臂得糖”时RPE高,于是行为与神经记录首次实现“奖赏-误差”正交。作者用无回放Q-learning拟合22天择臂行为,得到基线误差;再在模型中插入四种离线回放策略——随机、奖赏偏倚、RPE优先、RPE比例——比较谁能把下一步动作预测得更准。同步记录另一队列3只大鼠背侧CA1与腹侧纹状体单单位放电,检验任务后2小时静息期尖波涟漪(sharp-wave ripple, SWR)内是否优先再激活高RPE片段。
关键技术速览:三臂概率反转行为范式;个体化Q-learning与Dyna-Q离线回放建模;贝叶斯自适应直接搜索(BADS)参数优化;高密度硅电极同步记录背侧CA1-腹侧纹状体;尖波涟漪检测与跨区协方差再激活(EV/REV)分析;基于drop-one-out的显著再激活细胞对筛选。
结果1:大鼠学会“按概率择臂”且行为对概率反转敏感
动物在第6场起显著偏爱高概率臂,第11场趋于稳定;反转后择臂策略迅速下调,表明已建立概率预期,为分离RPE奠定基础。
结果2:无回放Q-learning可较好拟合择臂曲线
预测-实际动作概率相关系数R2=0.87,误差随训练降低;扰动分析证实参数收敛稳定,支持模型作为后续回放比较基线。
结果3:仅RPE偏倚回放显著提升预测精度
引入1~100条离线回放样本,RPE优先策略使归一化误差显著低于无回放基线(p<0.05),且优势贯穿全程;随机与奖赏偏倚策略无效。用打乱序列训练时RPE优势消失,证明效果源于对学习时序的捕捉,而非统计先验。
结果4:海马-纹状体细胞对优先再激活“奖赏预期”信号
CA1-纹状体细胞对中,高再激活组在接近高概率臂前2 s共活动峰值显著高于非再激活组(交互F(1)=12.6, p=0.0004),提示回放携带的是“即将获赏”的预期值而非奖赏本身。
结果5:纹状体内细胞对优先再激活“RPE”信号
纹状体-纹状体细胞对中,高再激活组在中概率臂获得意外赏后5 s共活动显著升高(交互F(1)=8.6, p=0.0035),而在高概率臂获赏后无此增量,表明区内回放专门标记“超预期”误差。
结论与讨论
该研究行为-建模-电生理三线并行,首次明确离线回放的选择规则:并非“谁给糖就重演谁”,而是“谁带来最大预测误差就重演谁”。RPE偏倚回放使Q值更快收敛,对应海马-纹状体网络重放奖赏预期、纹状体内网络重放RPE,形成“预期-误差”双层离线更新,从而为空间-奖赏关联记忆在睡眠/静息期巩固提供计算与机制解释。该发现把强化学习理论的“优先经验回放”(prioritized experience replay)从机器学习带回神经科学,揭示多巴胺-海马-纹状体环路如何通过离线再激活调优未来决策,为记忆增强、成瘾干预及睡眠调控研究提供新靶点。论文2025年11月24日在线发表于《Nature Communications》。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号