经过对上传文档的全面分析,现将各项问题的答案整理如下: 中文标题 CogLink:一种结合皮质-纹状体强化学习与丘脑-前额叶执行控制的分层决策神经架构及其在精神分裂症计算精神病学中的应用

《Nature Communications》:The neural basis for uncertainty processing in hierarchical decision making

【字体: 时间:2025年10月19日 来源:Nature Communications 15.7

编辑推荐:

  本研究针对生物体在分层环境中处理不确定性进行灵活决策的机制难题,提出了名为CogLink的神经计算架构。该模型整合皮质-纹状体回路(负责强化学习)与前额叶-丘脑网络(负责执行控制),通过数学分析和靶向干预实验,揭示了不同形式不确定性(关联性、结果性、情境性)的专门化处理机制及其相互作用如何通过调节探索-利用权衡支持分层决策。研究进一步应用于计算精神病学领域,将精神分裂症的神经功能障碍与决策中的非典型推理模式相联系,为理解高阶认知的神经基础提供了重要桥梁。

  
论文解读文章
在复杂多变的环境中做出明智的决策,是生物体生存和繁衍的关键能力。无论是选择聊天话题以维持融洽的社交关系,还是在多臂老虎机任务中最大化收益,我们的大脑都需要在不断涌现的模糊信息中,推断哪些行动可能带来回报,并判断这些回报的规律是稳定存在还是已然改变。这种能力依赖于对环境中存在的多种不确定性的有效处理。例如,一次尴尬的对话可能源于话题选择不当(较低层级的不确定性),也可能源于对方当天心情不佳(较高层级的情境不确定性)。成功应对此类挑战需要进行分层推理:大脑不仅需要在不同层级处理不确定性,还需将它们整合成连贯的行为策略。
尽管动物研究表明感知信心可以影响更高层级的情境推断,并揭示了在分层决策任务中与感觉和情境不确定性相关的神经基质,但情境不确定性如何与其他类型的不确定性(如关联不确定性或结果不确定性)相互作用,仍然不甚清楚。传统的规范性模型(如基于贝叶斯推断的模型)和新兴的深度学习神经网络,作为理解决策的工具有其局限性:前者依赖对环境生成模型的准确设定,且其组件与非神经结构对应关系不明;后者虽在任务表现上出色,但作为频率主义预测模型,无法像人或动物那样显式地估计不同任务组成部分的置信度。这些不足凸显了需要一种新方法来理解大脑如何在分层环境中做出决策,以及不确定性处理如何实现这种认知能力。
在此背景下,发表于《Nature Communications》的研究“The neural basis for uncertainty processing in hierarchical decision making”引入了一个名为CogLink的神经架构。该架构旨在弥合上述鸿沟,其核心是结合了用于强化学习的皮质-纹状体回路和用于执行控制的前额叶-丘脑网络。通过数学分析和靶向干预,研究团队表明这些系统专门处理不同形式的不确定性,它们的相互作用通过调节高效探索和策略切换来支持分层决策。研究还将CogLink应用于一个计算精神病学问题,将精神分裂症的神经功能障碍与决策中的非典型推理模式联系起来。
关键技术方法概述
本研究构建了CogLink这一受生物学启发的神经动力学模型。模型核心采用速率神经元描述神经活动。基本CogLink网络模拟了前运动皮质-丘脑-基底节环路,强调基底节在强化学习和环境探索中的作用,处理较低层级的不确定性。增强型CogLink网络则引入了关联皮质-丘脑-基底节环路,突出内侧背丘脑与前额叶皮质的相互作用,处理与情境推断和策略转换相关的高层级不确定性。关键方法包括:1)利用尺度分离原理从神经动力学中提取结构化计算算法,进而优化网络连接参数,而非使用误差反向传播;2)在基底节样区域引入分位数群体编码,将动作价值信念表示为概率分布,并通过前运动皮质中的随机稀疏化动力学进行采样,以指导决策;3)在前额叶-内侧背丘脑环路中,采用非对称赫布塑性学习情境生成模型,并利用丘脑皮层投射(经由VIP和PV中间神经元)对下游皮质纹状体连接进行情境依赖性门控,以调节学习和行为。模型在静态A选一强制选择任务、概率反转任务等计算行为范式中进行性能评估,并与汤普森采样、隐马尔可夫模型等基准算法进行比较。
研究结果
构建处理较低层级不确定性的基本CogLink网络
为了阐释较低层级的不确定性,研究以与陌生同事对话为例,说明了结果不确定性(如对方注意力不集中)和关联不确定性(如对对方偏好缺乏了解)的存在。成功应对需要平衡探索(尝试新话题)与利用(坚持原话题)。研究采用A选一强制选择任务来量化这种行为。基本CogLink网络整合了类基底节电路以及用于在线学习的多巴胺依赖性可塑性机制。该网络通过两个核心机制处理较低层级不确定性:探索机制和学习机制。探索机制将不确定性表示为基底节中的分布,并利用前运动皮层的复发动力学实现概率匹配策略,在不确定性高时促进探索。学习机制受分布强化学习和贝叶斯推断的启发,通过多巴胺依赖的可塑性根据试验结果更新动作价值信念。
一个关键特征是其在类基底节区域采用了分位数群体编码,将关联不确定性编码为动作价值信念的概率分布。前运动皮质中的随机稀疏化动力学利用这一特性通过采样来提取不确定性。具体而言,前运动皮质-纹状体突触使用分位数编码表示动作价值信念的分布。采样机制从而提供了一种将关联不确定性转化为运动样区域输入的方法,支持决策过程中的高效探索。运动皮层样区域中的赢家通吃机制最终选择具有最高采样价值的动作。由于采样值的概率性质携带了不确定性信息,这允许了基于关联不确定性的探索:当不同动作的价值信念分布重叠较大时(对最佳动作的不确定性高),CogLink会进行更多探索;当分布重叠较小时(不确定性低),则进行更多利用。
在选择动作at并获得奖励rt后,多巴胺活动形成分布式的奖赏预测误差δ ∈ RM,用于更新前运动-基底节突触。与之前关注学习奖励分布的分布强化学习不同,本研究的方法学习动作价值信念分布,这对于表示动作价值的不确定性至关重要。模型性能使用遗憾指标进行评估,CogLink网络通过平衡探索和利用成功地将遗憾最小化。对皮质纹状体连接突触强度的检查揭示了有效探索的独特特征。为验证特定机制的必要性,研究进行了两种干预实验:减少前运动皮层稀疏化和使用标量奖赏预测误差替代分布性奖赏预测误差。两种干预变体均导致遗憾显著增加,这由过早利用引起,从而为随机稀疏化和分布性奖赏预测误差在平衡探索和利用中的作用提供了机制性见解。
基本CogLink模型近似于具有近乎最优遗憾的算法
为了更清晰地阐明底层计算机制并进行数学分析,研究通过利用尺度分离将基本CogLink网络近似为一个算法。该简化使得针对动作a调整的前运动皮质纹状体样集群能够作为动作价值分布的采样机制。具体地,前运动皮层样电路中的K-WTA动力学用于随机选择K个神经元,从而实现对动作价值分布的高效采样。运动皮层样电路的赢家通吃机制则选择具有最高样本价值的动作。多巴胺门控的可塑性根据分布性奖赏预测误差信号调整皮质纹状体突触,随时间细化动作价值估计。
?5, P=1.25×10?4,P=3.37×10?7,**P=1.32×10?4;双向秩和检验)。'>
该算法提供了一个直观的框架来理解皮质纹状体网络模型的功能。在此框架中,表示动作价值信念的后验样分布通过前运动皮层的随机稀疏化进行采样。运动皮层随后通过循环竞争动力学选择与最大采样值对应的动作。动作选择后,模型根据来自多巴胺神经元的分布性奖赏预测误差信号细化其动作价值分布。高关联不确定性(表明对价值估计缺乏信心)会导致后验样分布显著重叠,从而促进探索;反之,低关联不确定性导致后验样分布分离良好,使得模型能够有信心地选择最优动作进行利用。
通过对该算法进行数学分析,研究表明,通过适当配置突触更新规则中的参数,算法在静态A-AFC任务中T次试验后的遗憾最多为C√(AT log(AT)),其中A是动作数量,T是试验次数,C是常数。已有研究证明,任何算法的遗憾都不可能小于Θ(√(AT))。因此,本研究的算法仅相差一个对数因子,在遗憾意义上接近最优。这一结果为模型在较低层级不确定性下执行高效探索的能力提供了理论基础。
基本CogLink与概率匹配贝叶斯推断的关系
研究在静态A-AFC任务中评估了基本CogLink模型的性能,并将其与汤普森采样进行了比较。在所有测试环境中,CogLink始终优于TS,表现出更快的收敛速度和更好的遗憾性能。为了进一步评估CogLink处理更复杂决策场景的通用性,研究将其应用扩展到两个推广任务:包含状态(线索)信息的提示A-AFC任务和引入状态转换的二叉树迷宫任务。在这些任务中,CogLink与TS和深度Q网络相比,在不同难度设置下均表现出稳健的性能。这些结果突显了CogLink从简单的无状态环境到涉及状态信息和转换的更复杂任务的自适应能力。
CogLink在各种任务中的稳健性能引发了对其背后有效决策机制的思考。通过检查CogLink近似后产生的算法,发现其与汤普森采样在动作价值分布的使用和概率匹配样动作选择方面有关键相似之处,但在更新规则上存在差异。通过将皮质纹状体权重初始化为近似均匀先验,并检查动作价值分布在分布性奖赏预测误差更新下的演变,研究发现选择学习率ηt∝ 1/t时,其更新紧密近似于最优贝叶斯推断下期望和方差的演变。在动作选择方面,与TS相比,CogLink通过调节前运动皮层样区域中的稀疏性参数K,在平衡探索和利用方面提供了灵活性。当K=1时,相当于概率匹配;当K=M时,是确定性采样期望值;当1<><>
构建处理高层级不确定性的增强型CogLink网络
回到与陌生同事交谈的例子,假设每次无聊的叹息 solely 源于次优的话题选择或随机的结果变异性(如注意力不集中)是过于简单的。更高层级的因素,如同事的情绪或工作量,也可能起作用,而这些条件通常是动态且不可直接观察的。为了应对这一挑战,研究设计了一个动态环境中的概率反转任务。虽然基本CogLink网络在静态环境中表现良好,但在此动态设置中难以快速适应变化的语境。
作为初步步骤,研究向模型引入了明确的外部情境线索,根据提供的线索激活基本CogLink网络的独立实例。这种修改允许模型实现瞬时行为切换。然而,自然环境中的动物很少能获得明确的情境线索,而必须从模糊和不完整的观察中推断潜在的情境。
前额叶皮层-内侧背丘脑环路是实现这种情境推断的自然候选脑区。研究受此启发,通过纳入一个PFC-MD样环路来增强CogLink,以推断并向基本CogLink网络提供情境信息。这种增强使模型能够在不依赖外部明确线索的情况下适应动态环境。增强型CogLink模型的一个显著特征是其在内侧背丘脑样区域中对情境似然性的低维表示。具体来说,研究者提出MD编码给定动作-结果对历史的情境c的条件似然性p(c|a≤t, r≤t)。MD活动位于一个低维单纯形吸引子上,从而能够稳定地表征情境似然性。在这个框架中,情境似然性在更新后动态整合输入,使其能够响应不断变化的环境条件而遍历流形。
贝叶斯规则为确定所需的输入编码提供了一个框架,它定义了情境似然性的计算方式:p(c|a≤t, r≤t) ∝ Πi=1tp(ai, ri|c) p(c)。这种形式主义表明,输入应对应于单试验情境生成模型p(at, rt|c),该模型跨试验累积以计算总体似然性。研究者假设PFC-MD突触学习这个单试验生成模型,而MD的低维吸引子动力学执行累积过程。为了实现这一过程,研究为PFC-MD连接实现了一个赫布学习规则。
初始的赫布可塑性在情境不确定性高时可能会错误地将动作结果对与错误的情境相关联,导致情境生成模型估计不准确。为了缓解这个问题,研究引入了一个门控机制fhebb,根据MD活动调节可塑性。当MD确信地推断情境时(高MD活动),该门控增强学习;当情境不确定性高时(低MD活动),则抑制可塑性。通过这种方式,该机制实现了两个关键目标:在置信度高时加速学习情境统计量,并在高情境不确定性下防止错误归因。
增强型CogLink的另一个关键组成部分是一个中间神经元介导的丘脑皮层投射通路,它在高情境不确定性下调节皮层活动以驱动探索。当情境不确定性高时,动物需要更多探索以收集关于当前情境的信息。研究者从实验发现中汲取灵感,即MD丘脑通过不同的中间神经元介导机制调节PFC功能连接。具体来说,研究假设这种调节使得情境相关的PFC群体能够差异性地影响下游前运动电路,从而促进情境依赖行为。为了模拟这一机制,研究包含了两个丘脑投射通路:一条通过血管活性肠肽中间神经元进行局部去抑制来放大偏好情境的皮层连接,另一条通过小清蛋白中间神经元介导的快速抑制来抑制与对立情境相关的皮层活动。这种调制根据以下动力学调整皮质纹状体连接的有效强度。具体而言,投射根据上下文确定性编码项fin(xcvip- xcpv)调制皮质纹状体连接。这种机制确保在高情境不确定性下皮质纹状体连接减弱,促进探索行为。通过系统改变MD活动来操纵情境不确定性并测量其对探索行为的影响,验证了这一机制。
除了调节探索行为外,情境不确定性还应调节学习。在高情境不确定性下,单纯的多巴胺依赖性可塑性有可能将关联错误地归因于错误的情境,导致不准确的动作价值估计。为了解决这个问题,研究实现了一种机制,其中中间神经元介导的输入对皮质纹状体突触的可塑性进行门控。该设计受到实验发现的启发,即中间神经元介导的通路可以调节皮层可塑性。具体来说,模型的更新规则结合了门控函数fin(xcvip- xcpv)。当情境不确定性高(fin值低)时,该机制抑制学习以避免将观察到的结果与不正确的情境相关联;反之,在低不确定性下,可塑性增强,促进准确学习。为了测试此门控机制的必要性,研究开发了一个绕过中间神经元门控并使用直接丘脑皮层调制的模型变体。完整模型学习到的动作价值估计紧密近似于环境的真实动作价值,而敲除中间神经元门控的变体则显著偏离,这突显了中间神经元介导的门控在跨情境转换实现准确和持续学习中的关键作用。
MD电路近似于最优检测环境变化的算法
为了计算性理解CogLink如何实现灵活切换,研究者接下来描述了有效的MD电路并用一个算法近似了MD电路的动力学。MD电路的结构旨在累积情境似然性,实现稳健的情境推断。数学上,通过让丘脑网状核和额叶神经元的动力学瞬时发生,MD电路可以有效地用一组方程描述。定义X = x1md- x2md,动力学可简化为一个漂移-扩散过程,其输入为I1pfc/md- I2pfc/md
如果PFC输入从方程中学习到准确的情境生成模型,这些动力学就与CUSUM算法一致,这是一种理论上最优的检测分布变化的方法。当PFC-MD输入被设置为Icpfc/md(t) = log P(at, rt|c) + α时,CogLink模型的功能类似于用于检测分布变化的CUSUM算法。这种一致性强调了丘脑皮层模型在识别环境变化和促进不同决策基本CogLink实例之间转换的效率。
认识到现实世界环境通常涉及多个连续变化,CogLink模型引入了一个封顶机制来解决CUSUM算法(设计用于单一点检测)的局限性。通过限制每个情境的证据积累,该机制防止过度投入于单一情境,并使模型能够快速重置并为后续的环境转换做好准备。这解释了在第一次检测到变化后观察到的与CUSUM算法行为的偏差,并突出了该特征在保持适应性方面的重要性。此外,证据封顶机制支持模型不依赖于生成模型的先验知识。只要情境变化之间有足够的时间让Ipfc/md准确学习情境生成模型,CogLink模型就可以有效运行,而不需要特定的环境细节假设。这种与模型无关的特性不仅使其区别于依赖精确生成模型的理想观察者模型,而且强调了其在多样和动态环境中的通用性和鲁棒性。
增强型CogLink通过管理分层不确定性实现灵活决策和持续学习
为了实证评估CogLink在动态环境中的性能,研究将其与一个隐马尔可夫模型进行了比较,该HMM拥有环境的隐藏生成模型的先验知识,并使用汤普森采样进行动作选择。尽管HMM具有完全先验知识的优势,CogLink在从零开始学习生成模型的同时,达到了与HMM相当的遗憾水平和准确性。这一比较突显了CogLink在不预设环境假设的情况下有效执行的能力。
分析模型在情境切换后的行为揭示了它们适应策略的差异。虽然两种模型都迅速转换到新情境,但HMM切换速度稍快,但需要更多试验来完全稳定其决策。量化而言,HMM由于先验知识而表现出更快的切换时间,尽管CogLink的切换性能仍然具有竞争力。为理解CogLink性能背后的机制,研究分析了MD中证据积累的动力学。模型在每次区块切换后快速准确地检测到情境转换,利用这些动力学进行有效适应。此外,CogLink通过准确更新动作价值和情境生成模型,展示了稳健的持续学习能力,即使环境统计量在不同区块间发生变化。这些学习到的估计在切换过程中保持稳定,保留了先前区块信息的同时适应新情境。
为了进一步探索这种适应性,研究检验了CogLink如何利用编码在MD群体中的情境不确定性来支持持续学习。情境不确定性在情境切换后立即达到峰值,反映了模型在转换期间收集信息的需要。这种不确定性调制直接影响PFC-MD突触的赫布学习率,在切换后针对先前情境的学习率迅速降低。这防止了模型在错误情境中不正确学习生成模型。类似地,VIP和PV介导的学习率被调制以确保动作-结果关联被恰当地归因于当前情境。
有趣的是,不确定性调制在层级之间是双向的。由动作-结果关联知识不足引起的高关联不确定性会减慢模型更新情境不确定性的速度,这反映了将证据归因于正确层级过程的困难。这种行为表现在CogLink遇到新情境区块时更长的切换时间上。相反,在结果不确定性低(如奖励概率为90%/10%)的动态环境中,CogLink切换情境要快得多。这表明结果变异性的减少使得模型更容易将失败归因于情境变化,从而促进更快的情境更新。总之,这些发现表明关联不确定性和结果不确定性都影响着情境不确定性的动力学。通过协调跨层级不确定性水平的这些相互作用,CogLink即使在复杂和动态的环境中也能实现灵活的决策和稳健的持续学习。
模型解释了MD在变化环境而非静止环境决策中的因果参与
大量研究表明,MD损伤或失活会干扰环境变化时的行为调整,但不一定会影响稳定条件下的行为。为了测试模型是否呈现这些特征,研究通过抑制模型MD神经活动进行了扰动研究。与大量实验结果一致,研究发现MD抑制模型比正常模型需要显著更长的时间来切换。具体来说,在一个区块切换后,MD抑制模型表现出对替代动作的探索逐渐增加,直到最终确认。此外,该模型提供了一个独特的视角来解释其原因,并提出了一个可通过实验验证的预测:在模型的另一个组成部分M1-BG组件中,对皮质纹状体连接强度的分析显示,跨区块的价值估计存在波动,表明为了适应当前情境,对先前情境的价值估计进行了“忘记”。这与以下观点一致:在没有MD的情况下,动物可能默认使用较低层级或模型无关的策略来解决它们本可以通过前额叶控制解决的问题。
一个自然产生的问题是:MD在静止环境中对于高效探索是否是必需的?为了回答这个问题,研究在各种静止2-AFC任务中评估了模型。与上述结果相反,MD抑制模型在各种环境中仍具有与汤普森采样相当的行为性能,仅比完整模型性能略有下降。这进一步表明MD不直接参与简单的联想学习,而是作为一个中枢枢纽,通过学习到的情境模型来协调情境模型的学习和下游联想学习的调制。
纹状体D2受体过度激活诱导类精神分裂症行为,MD刺激可挽救这些缺陷
越来越多的证据表明,精神分裂症患者表现出受损的信念更新过程,这可能与妄想思维的易感性有关。此外,静息态功能连接显示精神分裂症患者MD丘脑与PFC之间的连接发生改变。最近一项使用携带精神分裂症相关突变的小鼠模型的研究显示,MD功能受损和信念更新同时受到干扰,而MD的光遗传学刺激可使信念更新过程正常化。这些发现提出了MD扰动与信念更新决策过程之间的机制联系问题。
受大多数针对D2受体的抗精神病药物是多巴胺拮抗剂,且大多数精神分裂症患者显示纹状体D2R水平升高这一事实的启发,研究者考虑了一个纹状体D2R过度激活的受损模型。由于纹状体到丘脑的间接通路预计会抑制MD丘脑,研究者模拟了MD兴奋性降低的受损模型。
观察到受损模型具有次优的遗憾和准确性,并且在区块切换后从未完全致力于准确的选择。此外,该模型在切换后也表现出更长的探索时间,显示认知灵活性受损。另一方面,受损模型也表现出升高的“赢-切换”率,这表明其对环境不稳定的感知导致了这种不稳定的行为。切换缓慢和高赢-切换率这两种看似矛盾的行为,与在患者和动物模型中的实验发现一致。
为了研究这两种行为背后的神经机制,研究者首先检查了由两个情境MD群体活动差异形成的漂移过程。与正常漂移过程相比,受损模型的漂移过程在低得多的阈值处饱和其证据,诱导了对环境波动性的强烈先验。为了理解其底层功能障碍,研究者利用CogLink近似算法的能力,表明积累动力学的阈值变小。此外,受损的规范模型表现出泄漏的证据整合,进一步强化了其对环境波动性的先验信念。通过检查受损模型解码的情境不确定性,也可以观察到其对环境波动性的强烈信念。
另一方面,皮质纹状体强度表现出更同质的分布,表明低关联不确定性。而且,其受VIP/PV中间神经元调制的学习率远低于正常模型。这表明尽管受损模型对环境波动性有强烈的先验,但它在单个情境内更新其信念的速度要慢得多,可能导致切换缓慢。
许多研究证明了精神分裂症患者PFC-MD耦合的改变。鉴于模型表明PFC-MD连接参与学习情境生成模型,研究者旨在调查受损模型是否也表现出模型学习缺陷。与正常模型相比,受损模型难以学习环境的正确情境生成模型。为了探究机制,研究者检查了PFC-MD连接的学习率。确实,较低的兴奋性导致神经活动不足以诱导赫布可塑性。
为了恢复模型的学习能力,研究者向MD神经元引入了一个小的兴奋性电流。这种干预减少了切换后的遗憾和探索行为。此外,尽管挽救模型没有降低赢-切换率,但挽救模型的漂移过程表现出更高的证据积累阈值,表明对环境波动性的先验减弱。而且,挽救模型在其PFC-MD连接中学习到了更准确的世界生成模型,并恢复了PFC-MD连接中的正常学习。这些发现与最近在精神分裂症相关小鼠模型上进行的MD激活实验一致。
结论与意义
本研究的CogLink网络通过整合多种受生物学启发的机制,为理解前额叶网络中关联和情境不确定性的处理提供了一个计算框架。该模型在保持生物合理性的同时,通过近似规范算法并允许数学分析,在连接神经机制和计算功能方面迈出了重要一步。研究表明,通过皮质-纹状体回路处理关联不确定性和通过前额叶-丘脑回路处理情境不确定性,并在它们之间建立协调,对于在分层环境中实现灵活的决策至关重要。特别是,内侧背丘脑在推断情境和门控学习与行为中的核心作用得到了强调。
研究还将该模型应用于精神分裂症的计算精神病学建模,展示了其连接分子水平扰动(如D2受体过度激活)与行为水平认知缺陷(如信念更新异常)的潜力。模型模拟和挽救实验为理解精神分裂症的病理生理机制和开发潜在干预策略提供了见解。
总之,CogLink构成了一个重要的步骤,弥合了神经基质与高阶认知之间的计算景观空白。它提供了一个可解释的、受生物学约束的框架,用于理解大脑如何在不确定的世界中进行分层推理和灵活决策。未来的工作将整合电生理数据以及连接组和功能数据,以进一步验证和扩展该模型。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号