内侧前额叶皮层中时间依赖性表征的部署调控雄性小鼠的决策行为

《Nature Communications》:Time-dependent deployment of medial prefrontal cortical representations in male mice

【字体: 时间:2026年01月13日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对动物在非平稳环境中如何整合奖励与选择历史以优化决策这一核心问题,通过结合行为学、在体电生理记录、计算建模和化学遗传学操控等技术,揭示了小鼠内侧前额叶皮层(mPFC)动态部署奖励和选择历史表征的神经机制。研究发现mPFC神经元不仅以离散且历史特异性的方式编码过去事件,其表征模式和行为影响还受到任务结构(VI vs. VR)和时间间隔的精密门控。该研究深化了我们对前额叶皮层在时间延展的决策过程中发挥关键作用的理解,为理解认知灵活性提供了新的视角。

  
在自然界中,动物为了生存需要不断地寻找食物,它们所处的环境往往是非平稳的——这意味着奖励的可得性会随着时间和动物的行为而改变。想象一下,一只老鼠在探索两个可能藏有食物的地点。如果一个地点一段时间没有被光顾,食物在其中“积累”的概率就会增加。因此,最优的觅食策略不仅仅是执着于刚刚获得过奖励的地点,还需要考虑那些被忽略的地点可能正在“变得更有价值”。这种复杂的决策过程是如何在大脑中实现的呢?特别是,大脑如何记住过去的奖励(“哪里给过吃的”)和过去的选择(“我上次去了哪里”),并将这些历史信息整合起来指导当前的行为?这就是摆在神经科学家面前的一个关键问题。
强化学习(Reinforcement Learning, RL)理论为理解此类行为提供了强大的框架,其模型能够很好地预测动物在类似实验情境下的选择。研究表明,大脑的某些区域,如基底节,在基于近期奖励结果的价值学习中扮演重要角色。然而,当决策涉及更长时间跨度的信息整合、需要克服“习惯”而灵活切换策略时,大脑皮层,特别是内侧前额叶皮层(medial Prefrontal Cortex, mPFC),就被认为至关重要。传统上,mPFC被认为与工作记忆功能相关,即短暂地保持信息以指导后续行为。同时,也有大量证据表明mPFC编码类似于RL模型中的决策变量(Decision Variable, DV)。但一个悬而未决的核心问题是:mPFC是如何表征奖励历史和选择历史的?这些表征是像漏积分器一样不断衰减,还是以更离散的、针对特定历史事件的方式编码?更重要的是,这些表征是否真的被动物用来做决策,其行为影响是否会随着任务需求(如奖励规则的变化)和时间压力(如选择间隔的长短)而动态变化?
为了回答这些深刻的问题,由Duda Kvitsiani领导的研究团队在《Nature Communications》上发表了一项研究。他们训练雄性小鼠执行一种概率性奖励觅食任务,该任务巧妙地模拟了自然环境中奖励的非平稳特性。研究人员结合了精细的行为分析、大规模mPFC神经元在体记录、计算建模(包括一种能同时整合奖励和选择历史的“双痕迹”模型-Double Trace model, DT model)以及化学遗传学神经元失活技术,系统性地揭示了mPFC在时间依赖性决策中的核心作用。
关键技术方法概述
研究主要运用了以下关键技术:1)行为训练:使用头固定小鼠进行离散化的可变间隔(VI)和可变比率(VR)强化任务,通过鼻触端口获取水奖励。2)在体电生理记录:通过慢性植入的微驱动电极阵列,在小鼠执行任务时记录mPFC区大量神经元的单细胞活动。3)计算建模:采用强化学习模型(特别是DT模型)拟合小鼠行为,并利用弹性网络回归(Elastic-net regression)等分析神经活动与行为变量的关系。4)化学遗传学神经元失活:通过在小鼠mPFC表达抑制性DREADD(hM4D(Gi))受体,并使用CNO(Clozapine N-oxide)进行急性、可逆的神经元失活,探究mPFC的功能必要性。5)神经网络模拟:使用循环神经网络(RNN)模拟决策变量的计算过程,与生物神经元活动进行比较。
研究结果
过去奖励和选择共同最大化奖励获取效率
研究人员首先建立了一个离散版本的变量间隔(VI)强化任务。小鼠通过中心端口启动试次,然后在左右两个侧端口之间做出选择以获取水滴奖励。关键设定在于,未被选择的侧端口的奖励概率会随着时间(或未被选择的次数)而增加,这模拟了自然环境中未被觅食地点的食物“积累”效应。行为分析表明,小鼠的选择比例局部和全局上都与奖励比例基本匹配。更重要的是,小鼠的表现超过了简单的交替选择或始终选择高概率端口等策略的人工智能体,表明它们使用了更复杂的策略。通过逻辑回归分析发现,过去的奖励(尤其是近期奖励)会增加再次选择同一端口的概率,而过去的选择则呈现非单调效应:最近一次选择会促进交替(选择另一个端口),但更早的选择则会促进坚持(选择同一端口)。反应时的分析也与此一致。这些结果证实,将奖励和选择历史整合入决策过程有助于小鼠优化其奖励获取效率。
mPFC整合过去奖励和选择的方式与行为一致
接下来,研究团队记录了小鼠执行VI任务时mPFC神经元的电活动。他们询问:单个神经元是否以与其对行为的影响相一致的方式来整合奖励和选择历史?结果发现,在决策时刻,许多神经元确实同时表征了奖励历史(近似于RL模型中的Q值)和选择历史(由DT模型中的快、慢选择痕迹F和S组分加权和表示)。重要的是,神经元对Q值和选择历史效应的编码方向在多数情况下是相反的,这与它们在行为上对当前选择常常产生拮抗效应(奖励促进坚持,近期选择促进交替)相一致。线性混合模型分析确认了这种负相关关系。此外,神经群体对DT模型预测的选择的解码准确性与模型本身的行为拟合度呈正相关。这表明mPFC神经元的群体活动确实反映了用于指导决策的决策变量。
神经元表现出对过去奖励和选择的离散编码
那么,mPFC神经元是如何表征这些历史的呢?是像标准的RL模型假设的那样,以不断衰减的(漏积分)方式表征一个综合的Q值,还是更倾向于编码特定历史时刻(如前2次、3次试次)的事件?研究人员通过将每个神经元的放电率回归到过去最多10个试次的奖励和选择事件上,发现了一个有趣的现象:虽然总体上编码强度随着历史回溯而衰减,但相当一部分神经元(13%)对特定历史试次(如2个试次前)发生的事件表现出最强的选择性。这意味着mPFC的表征并非简单的漏积分,而是包含了对特定过去事件的离散编码。为了验证这种历史特异性调谐的可能机制,他们训练了一个循环神经网络(RNN)来输出DT模型的变量。令人惊讶的是,这个人工网络中也涌现出了类似的、对特定历史时刻事件有选择性反应的神经元。这表明,网络内部的循环连接可能是产生这种离散历史编码的基础。
mPFC的神经反应捕捉任务需求的变化
为了检验mPFC的表征是否具有适应性,研究人员引入了另一种任务范式——可变比率(VR)强化任务。在VR任务中,奖励概率仅由预设概率决定,与过去选择无关,因此坚持选择高概率选项是最优策略。行为上,小鼠成功地从VI任务中更高的交替率调整到VR任务中更高的坚持率。相应地,逻辑回归显示,过去选择(尤其是近期选择)对当前选择的影响从负效应(促进交替)转变为正效应(促进坚持)。更重要的是,mPFC神经元的表征也发生了适应性变化:在VI任务中,神经元对奖励和选择历史效应的编码呈负相关,而在VR任务中,这种负相关减弱甚至变为正相关。这表明mPFC神经元整合历史信息的方式并非固定不变,而是灵活地根据当前任务结构(奖励是否依赖于选择历史)进行调整。
mPFC的行为影响随选择间隔延长而增强
表征的存在并不等同于功能上的必要性。为了验证mPFC是否确实在行为中使用了这些表征,研究人员利用化学遗传学方法(DREADD)在行为过程中可逆地失活mPFC。结果发现,失活效果具有情境依赖性。在标准短间隔的VI任务中,失活主要影响了动物对奖励历史的利用;而在VR任务中,则同时影响了奖励和选择历史效应。一个关键的假设是:mPFC的功能可能在时间间隔较长的决策中更为重要。为了验证这一点,他们增加了选择之间的时间间隔(长延迟任务)。果然,在长延迟的VI任务中,mPFC失活对行为的破坏效应(同时影响奖励和选择历史整合)显著强于短延迟版本。这表明,当行为相关事件在时间上被拉开时,mPFC对于维持和利用历史信息进行决策变得至关重要。
延迟重塑mPFC中的奖励和选择历史表征
最后,研究人员直接考察了时间延迟如何影响mPFC本身的神经表征。他们在同一个VI任务中穿插了短延迟和长延迟的区块。行为上,在短延迟区块中,选择历史(交替倾向)的影响更强;而在长延迟区块中,动物的策略似乎更优(遗憾值更低)。在神经层面,短延迟区块中,对选择历史的表征更占主导;而在长延迟区块中,对奖励历史的表征则相对更强。并且,负责在短、长延迟下表征奖励历史的神经元群体存在部分分离。这些神经表征的变化与行为调整相符,并进一步支持了mPFC功能的时间门控假说。
结论与意义
本研究系统地阐明了小鼠mPFC在动态决策中的核心作用。其主要结论是:mPFC通过其高度混合且冗余的神经元群体,以离散和历史特异性的方式编码过去的奖励和选择事件。这些表征并非固定不变,其整合方式(如奖励与选择历史的拮抗或协同)会根据任务结构(VI vs. VR)进行适应性调整。然而,最关键的是,mPFC对这些决策变量的“行为部署”受到时间因素的精密门控——当决策事件在时间上分离时,mPFC的作用变得更加突出和必要。
这项研究的重要意义在于它巧妙地将mPFC的传统工作记忆功能与现代强化学习框架联系起来。它提出,在时间上紧挨着的行动和结果,或许可以由皮层下回路(如基底节)有效处理;但当因果链在时间上延展,需要将信用分配给更早的行动时,具有强大 recurrent 连接特性的前额叶皮层就变得不可或缺。这为理解大脑如何在不同时间尺度上解决信用分配问题提供了新的理论视角。此外,研究揭示的历史特异性离散编码,以及对任务结构和时间间隔的动态响应,都极大地丰富了我们对于前额叶皮层复杂表征和计算能力的认识,为未来研究高级认知功能的神经基础指明了新的方向。
相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号