多巴胺在强化学习中的双重角色解析：预测误差与奖赏价值的实验验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月30日 来源：Current Biology 8.1

编辑推荐：

　　来自国际团队的研究人员通过计算建模与光遗传学实验，巧妙解构了中脑多巴胺（DA）信号在强化学习中的核心争议。研究开发了基于时间差分学习（TDRL）的双模型框架，在行为阻断范式下验证腹侧被盖区（VTA）DA神经元刺激通过模拟奖赏预测误差（RPE）而非单纯传递价值驱动学习，为DA的RPE假说提供了因果证据。该成果发表于《Current Biology》，揭示了高频刺激（>20Hz）引发无界学习的神经机制。

这项突破性研究像神经科学领域的"侦探故事"，揭开了多巴胺神经元放电频率背后的密码。中脑多巴胺（DA）信号究竟传递的是奖赏价值还是预测误差（RPE）？科研团队设计了一场精妙的"模型对决"：基于时间差分强化学习（TDRL）框架，分别构建将DA视为纯价值信号和RPE信号的两种计算模型。

实验舞台选在经典的行为阻断范式，科学家们用光遗传学技术操控小鼠腹侧被盖区（VTA）的DA神经元。当在预期奖赏出现时施加刺激，两个模型都预测到学习解阻断现象。但真正的胜负手出现在恒定刺激条件下——价值模型预言学习会被阻断，而RPE模型则坚持认为会出现解阻断。行为数据最终站在RPE模型这边，就像神经回路投出的决定性一票。

更有趣的发现是，当DA神经元被20Hz以上的高频刺激"点燃"时，人工制造的预测误差信号竟能独自驱动学习，导致"学习失控"现象。这就像给大脑的奖赏系统安装了涡轮增压器，过强的RPE信号让学习机制失去了刹车功能。这些发现不仅为多巴胺的RPE假说钉下关键证据，更为理解帕金森病、成瘾等DA相关疾病的异常学习机制提供了新视角。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号