皮质-基底节-丘脑子网络如何调整决策策略以提高奖励率

《PLOS Computational Biology》:How cortico-basal ganglia-thalamic subnetworks can shift decision policies to increase reward rate

【字体: 时间:2025年11月21日 来源:PLOS Computational Biology 3.6

编辑推荐:

  通过计算模型模拟皮质-基底节-丘脑(CBGT)通路,发现多巴胺依赖的突触可塑性可动态调整三个控制集合体(响应性、柔韧性、选择性),优化证据积累过程以提升奖励率。研究验证了CBGT电路通过协调不同控制集合体的活动实现决策策略的适应性调整,为神经可塑性机制在行为决策中的功能提供了理论依据。

  哺乳动物在面对多种选择时展现出高度灵活的决策策略,这些策略的形成和调整在很大程度上依赖于大脑中复杂的神经网络。其中,皮质-基底节-丘脑(CBGT)通路被认为是这些决策过程的核心调控机制之一。然而,如何通过CBGT通路的复杂连接性、动态性和可塑性实现经验依赖的决策策略调整,一直是神经科学领域的一个长期挑战。本文通过一种计算方法,对这一问题进行了深入探讨,揭示了CBGT网络如何通过多巴胺驱动的可塑性机制来优化决策策略,从而提高奖励率。

CBGT通路包含了多个脑区,这些脑区之间存在复杂的相互作用。研究者们发现,CBGT网络中的决策过程可以被简化为一种证据积累模型(evidence accumulation model, EAM),该模型通过少量参数描述了决策过程的动态变化。这些参数包括证据积累速率(drift rate, v)和决策阈值(boundary height, a),分别反映了证据收集的速度和所需达到的决策标准。基于这一模型,研究者们提出了一种新的方法,即通过计算分析来识别CBGT网络中三种关键的控制集合(control ensembles),它们分别对应于不同的决策策略调整机制,如“反应性”(responsiveness)、“可塑性”(pliancy)和“选择性”(choice)。这些控制集合不仅有助于理解CBGT网络如何调控决策过程,也为进一步研究学习如何影响决策策略提供了理论基础。

在实验中,研究者们构建了一个基于生物约束的脉冲神经网络模型,模拟了CBGT通路在学习过程中的行为表现。该模型被设计用于执行一个简单的两选任务,其中一项是奖励性的,另一项是无奖励的。通过在学习过程中对皮质-纹状体(cortico-striatal)突触进行多巴胺依赖的可塑性调整,研究者们发现,这些调整能够有效提高奖励率。具体来说,随着学习的进行,网络的行为逐渐从最初的随机选择,转变为更偏向于选择高奖励选项的策略。这表明,CBGT网络能够通过突触可塑性机制,动态调整其内部的决策策略,以实现更优的奖励获取。

研究者们进一步分析了不同反馈序列对控制集合的影响。他们发现,连续的失败(unrewarded)或成功(rewarded)选择会引发不同的突触可塑性变化。例如,连续两次失败的选择会增加决策阈值,同时减少证据积累速率,从而提高对后续决策的谨慎性。相反,连续两次成功的选择会降低决策阈值,提高证据积累速率,使决策更加迅速。此外,混合反馈(如一次成功和一次失败)则能够同时增强正确选择并削弱错误选择,从而带来更大的奖励率提升。这种机制解释了为什么在学习初期,混合反馈比单纯的奖励或失败反馈更能促进决策策略的优化。

为了验证这些发现,研究者们使用了证据积累模型(DDM)对CBGT网络的行为进行拟合,并通过计算不同参数变化的方向与奖励率梯度之间的匹配程度,来评估学习效果。结果显示,CBGT网络的行为变化在很大程度上与奖励率的优化方向一致,而与速度或准确性的优化方向并不完全吻合。这表明,尽管速度和准确性之间存在一定的权衡关系,但奖励率的优化是通过协调调整这些参数来实现的,而不是单独优化其中一个。因此,CBGT网络的可塑性机制能够以一种策略性的方式调整证据积累过程,从而在学习过程中实现更高效的决策策略。

此外,研究者们还分析了CBGT网络中三种控制集合的具体作用。例如,“反应性”控制集合主要负责调节决策的起始时间(onset time)和决策阈值(boundary height),决定了个体对证据的敏感度;“可塑性”控制集合则影响证据积累所需的时间和决策的谨慎程度;而“选择性”控制集合则主要调控决策偏好,即对某一选项的倾向性。通过分析这些控制集合的变化,研究者们发现,学习过程中突触可塑性对这些控制集合的影响是系统性的,不同类型的网络(如快速、中等和缓慢的网络)在学习过程中表现出不同的控制集合调整模式。

研究者们还讨论了CBGT网络在学习过程中可能受到的其他因素的影响。例如,虽然突触可塑性是决策策略调整的关键机制之一,但决策速度的提升可能还受到其他因素的调控,如对决策结果的信心。此外,任务环境中的不确定性也会影响CBGT网络的行为表现。当奖励概率较高时,CBGT网络的决策策略会更加倾向于选择高奖励选项,而在奖励概率较低的情况下,网络可能会更加谨慎,以减少错误选择带来的负面影响。

在讨论部分,研究者们指出,他们的模型结果与以往的实验研究和理论模型在多个方面保持一致。例如,CBGT网络中的“反应性”控制集合的变化与神经活动的增强或减弱相一致,而“可塑性”控制集合的变化则与决策阈值的调整密切相关。此外,他们还提到,CBGT网络中的“选择性”控制集合可能与决策过程中直接和间接通路之间的竞争有关,这种竞争机制在决策时起到了关键作用。

总体而言,这项研究为理解CBGT网络如何通过突触可塑性机制实现决策策略的调整提供了新的视角。通过模拟和计算分析,研究者们揭示了三种控制集合如何在学习过程中相互作用,以优化奖励率。这些发现不仅有助于深化我们对决策机制的理解,也为未来研究提供了重要的理论基础和实验方向。例如,研究者们预测,CBGT网络中的控制集合变化可能与特定的神经活动模式相关,这些模式可以通过进一步的实验进行验证。此外,他们的模型还表明,CBGT网络的可塑性机制能够以一种高度协调的方式调整决策过程,从而在不同任务环境中实现最优的奖励获取策略。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号