
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:内感受性起源的强化学习机制
【字体: 大 中 小 】 时间:2025年06月12日 来源:TRENDS IN Cognitive Sciences 16.7
编辑推荐:
这篇开创性综述挑战了传统强化学习(RL)理论,提出食物和水的初级奖赏信号(primary reward)源自消化过程中的内感受性(interoceptive)反馈,而非即时感官输入。作者整合神经科学证据,揭示了糖类(通过肝门静脉葡萄糖氧化)、脂肪(经肠道PPAR-α通路)和水(渗透压感知)分别通过迷走神经投射到纹状体(DS/VS)的多巴胺(DA)系统,建立了一套状态依赖的奖赏生成框架,为理解代谢疾病和成瘾机制提供了新视角。
传统强化学习理论将奖赏视为外部给定的静态量,但最新研究表明,食物和水的关键强化信号来自消化过程中的延迟性内感受反馈。这些初级奖赏信号(primary reward)反映生命必需资源(如能量、营养和水分)的生理转化过程,而非即时感官愉悦。多巴胺(DA)系统作为"通用货币"处理这些信号,但其起源机制长期未被阐明。
小鼠实验揭示:蔗糖能维持舔舐行为和纹状体DA释放,而人工甜味剂(如三氯蔗糖)则不能。关键在于葡萄糖氧化产生ATP的过程——当使用葡萄糖抗代谢物2-脱氧葡萄糖(2DG)阻断ATP生成时,DA释放和舔舐行为同时被抑制。人类fMRI研究也显示,纹状体对食物线索的反应与餐后血糖升高和膳食诱导产热(DIT)相关。肝门静脉的葡萄糖传感器通过迷走神经将信号传递至背侧纹状体(DS),构成能量奖赏的核心通路。

膳食脂肪通过上肠道特定细胞感知,经迷走神经投射至DS。有趣的是,肠道注射胆囊收缩素(CCK)可直接激活该通路引发DA释放。脂肪与糖类通路既独立又协同——同时激活会产生超叠加效应,解释为何高脂高糖食物更具奖赏性。
脱水动物在舔舐时显示腹侧被盖区(VTA)DA反应,随后在胃肠道吸收阶段出现两次纹状体激活。关键发现是:抑制VTA多巴胺神经元会阻断水强化学习,证明渗透压变化检测是水奖赏的核心机制。
初级奖赏信号的延迟性(消化需数小时)带来"信用分配"难题。生物体通过早期感官信号(视觉/嗅觉/味觉)构建代理奖赏(proxy reward)来解决:
解剖学上,早期口腔奖赏主要激活腹侧纹状体(VS),而延迟性内感受信号靶向DS,形成功能分工:VS处理享乐预期,DS强化行为动机。
食物线索能触发胰岛素释放和AgRP"饥饿"神经元抑制,实现代谢预适应。这种前瞻性调节体现在:
形成"预测-准备-反馈"闭环,其中奖赏预期驱动代谢调整,进而调节后续内感受反馈。
初级奖赏与内部状态存在两种互动模式(图3):

存储能力差异可能解释不同架构:水(不可存储)需要精确的状态补偿,而能量(可存储为脂肪)允许超需摄入。类似机制可能适用于金钱等可存储的次级强化物。
传统RL将奖赏视为外部给定标量,而生物奖赏具有三个革新特征:
新的计算模型需要整合:
这套框架为理解从代谢紊乱到成瘾的多种疾病提供新思路,同时为设计具有自主目标设定能力的人工智能提供生物学启示。
生物通微信公众号
知名企业招聘