综述:内感受性起源的强化学习机制

【字体: 时间:2025年06月12日 来源:TRENDS IN Cognitive Sciences 16.7

编辑推荐:

  这篇开创性综述挑战了传统强化学习(RL)理论,提出食物和水的初级奖赏信号(primary reward)源自消化过程中的内感受性(interoceptive)反馈,而非即时感官输入。作者整合神经科学证据,揭示了糖类(通过肝门静脉葡萄糖氧化)、脂肪(经肠道PPAR-α通路)和水(渗透压感知)分别通过迷走神经投射到纹状体(DS/VS)的多巴胺(DA)系统,建立了一套状态依赖的奖赏生成框架,为理解代谢疾病和成瘾机制提供了新视角。

  

奖赏的起源是什么?

传统强化学习理论将奖赏视为外部给定的静态量,但最新研究表明,食物和水的关键强化信号来自消化过程中的延迟性内感受反馈。这些初级奖赏信号(primary reward)反映生命必需资源(如能量、营养和水分)的生理转化过程,而非即时感官愉悦。多巴胺(DA)系统作为"通用货币"处理这些信号,但其起源机制长期未被阐明。

初级奖赏信号代表关键生理变量

糖类案例

小鼠实验揭示:蔗糖能维持舔舐行为和纹状体DA释放,而人工甜味剂(如三氯蔗糖)则不能。关键在于葡萄糖氧化产生ATP的过程——当使用葡萄糖抗代谢物2-脱氧葡萄糖(2DG)阻断ATP生成时,DA释放和舔舐行为同时被抑制。人类fMRI研究也显示,纹状体对食物线索的反应与餐后血糖升高和膳食诱导产热(DIT)相关。肝门静脉的葡萄糖传感器通过迷走神经将信号传递至背侧纹状体(DS),构成能量奖赏的核心通路。

脂肪案例

膳食脂肪通过上肠道特定细胞感知,经迷走神经投射至DS。有趣的是,肠道注射胆囊收缩素(CCK)可直接激活该通路引发DA释放。脂肪与糖类通路既独立又协同——同时激活会产生超叠加效应,解释为何高脂高糖食物更具奖赏性。

水案例

脱水动物在舔舐时显示腹侧被盖区(VTA)DA反应,随后在胃肠道吸收阶段出现两次纹状体激活。关键发现是:抑制VTA多巴胺神经元会阻断水强化学习,证明渗透压变化检测是水奖赏的核心机制。

次级奖赏与代理奖赏的作用

初级奖赏信号的延迟性(消化需数小时)带来"信用分配"难题。生物体通过早期感官信号(视觉/嗅觉/味觉)构建代理奖赏(proxy reward)来解决:

  • 口腔信号(如甜味)提供"早期情感草案",加速学习
  • 前口腔线索(如食物外观)需学习形成次级奖赏
  • 味觉盲小鼠仍能建立糖偏好,证明口腔信号非必需

解剖学上,早期口腔奖赏主要激活腹侧纹状体(VS),而延迟性内感受信号靶向DS,形成功能分工:VS处理享乐预期,DS强化行为动机。

超越信用分配:早期信号驱动前瞻控制

食物线索能触发胰岛素释放和AgRP"饥饿"神经元抑制,实现代谢预适应。这种前瞻性调节体现在:

  • 线索强化进食(cue-potentiated feeding)可独立于饥饿状态发生
  • 食物想象能刺激渴求感
  • 预期饱腹感影响数小时后的主观饱足感

形成"预测-准备-反馈"闭环,其中奖赏预期驱动代谢调整,进而调节后续内感受反馈。

内部状态、驱力与初级奖赏

初级奖赏与内部状态存在两种互动模式(图3):

  1. 状态驱动型:如水分奖赏直接反映渗透压改善,由下丘脑GABA能神经元调控
  2. 事件驱动型:如糖类奖赏源自葡萄糖氧化的"绝对信号",饥饿状态仅起调节作用

存储能力差异可能解释不同架构:水(不可存储)需要精确的状态补偿,而能量(可存储为脂肪)允许超需摄入。类似机制可能适用于金钱等可存储的次级强化物。

扩展强化学习框架

传统RL将奖赏视为外部给定标量,而生物奖赏具有三个革新特征:

  1. 多源性:不同营养通过独立迷走神经通路传递
  2. 主观性:基于对身体状态的推断(内感受),非客观输入
  3. 目标依赖性:受预期状态(如饥渴驱力)调节

新的计算模型需要整合:

  • 将身体视为提供噪声感官输入的环境
  • 奖赏信号源自生理事件或主观状态评估
  • 驱力(如AgRP神经元活动)放大奖赏信号

这套框架为理解从代谢紊乱到成瘾的多种疾病提供新思路,同时为设计具有自主目标设定能力的人工智能提供生物学启示。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号