工作记忆与智力在强化学习策略选择中的独特作用：模型基于与模型自由学习机制的分离

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《npj Science of Learning》：The distinct functions of working memory and intelligence in model-based and model-free reinforcement learning

【字体：大中小】 时间：2025年10月17日 来源：npj Science of Learning 3

编辑推荐：

　　本研究针对复杂环境中个体如何调整强化学习(RL)策略这一关键问题，通过操纵工作记忆(WM)负载，探讨了模型基于(model-based)与模型自由(model-free)学习策略的权衡机制。研究发现，低WM负载下个体更倾向于采用灵活但耗能的模型基于策略，而高WM负载则促使个体转向高效节能的模型自由策略。线性回归与中介分析表明，模型基于策略的使用和流体智力均能正向预测学习绩效，且模型基于策略部分中介了WM负载对学习效果的影响。该研究揭示了WM容量在RL过程中策略仲裁的关键作用，为理解人类适应性学习机制提供了重要证据。

在复杂多变的环境中，人类如何通过经验学习做出最优决策？这一问题的背后，隐藏着两种截然不同的学习机制：一种是灵活但耗能的目标导向式学习，另一种是高效但刻板的习惯性学习。长期以来，研究者们一直试图理解，在不同认知负荷下，我们的大脑是如何在这两种策略之间进行权衡的。这正是发表在《npj Science of Learning》上的最新研究要解决的核心问题。

为了揭示这一认知谜题，中国科学院心理研究所的研究团队设计了一项精巧的两阶段强化学习实验。参与者需要在不同工作记忆负载条件下完成选择任务：低负载条件仅需记忆两对门-熊关联，而高负载条件则需同时记忆四对关联。

通过计算建模分析，研究者能够量化参与者对模型基于和模型自由策略的依赖程度。

研究方法上，该研究采用改进版的两阶段强化学习范式，通过操纵工作记忆负载（2对vs.4对刺激）考察策略转变。使用双系统强化学习计算模型估计关键参数：混合权重（表征模型基于策略贡献）、学习率（信息利用效率）、逆温度（探索-利用权衡）和资格迹（第二阶段结果对第一阶段决策的影响）。采用广义线性混合模型分析选择行为模式，结合相关分析、线性回归和中介分析探讨变量间关系。

结果分析

WM负载对学习策略的影响

研究发现，工作记忆负载显著影响了个体的策略选择。在低WM负载条件下，参与者表现出更高的模型基于策略使用倾向，而在高WM负载下，他们更倾向于采用模型自由策略。

具体而言，混合权重参数在高WM负载条件下显著降低(t(49)=6.95, p<0.001)，表明认知资源受限时，个体更倾向于选择计算效率更高的学习策略。

GLMM模型揭示的策略差异

广义线性混合模型分析进一步证实了策略选择的差异。在低WM负载条件下，参与者表现出典型的模型基于学习特征：先前奖励对停留概率有显著正向影响(β=1.330, p<0.001)，且不受状态相似性的调节。

而在高WM负载条件下，出现了显著的奖励与状态相似性交互效应(β=0.357, p<0.001)，表明个体更依赖模型自由策略。

智力与学习绩效的关系

相关分析显示，智力与学习绩效的关系受到WM负载的调节。在低WM负载条件下，智力与校正奖励率呈显著正相关(r=0.35, p=0.013)，但在高WM负载条件下，这种相关性消失。这表明在认知要求较低的任务中，一般智力更能预测学习效果，而在高认知负荷下，任务特定的认知资源变得更为关键。

中介效应分析

中介分析揭示了一个重要机制：模型基于策略的使用部分中介了WM负载对学习绩效的影响。

WM负载通过负向影响混合权重（路径a=-0.232, p<0.001），进而影响奖励获取（路径b=0.090, p<0.001），间接效应占总效应的24%。

研究结论与意义

本研究通过系统操纵工作记忆负载，揭示了人类强化学习过程中策略选择的动态调节机制。研究发现，个体能够根据任务需求灵活调整学习策略：在认知资源充足时倾向于采用耗能但灵活的模型基于策略，而在认知资源受限时转向高效节能的模型自由策略。这种策略仲裁过程受到工作记忆容量的显著影响，而流体智力则主要通过学习绩效间接体现其作用。

该研究的理论意义在于深化了我们对双系统强化学习机制的理解，证实了工作记忆在策略选择中的关键作用。实践上，这些发现为教育领域的个性化学习策略设计提供了重要启示：针对不同认知负荷的学习任务，可能需要采用不同的教学方法和支持策略。特别是在复杂学习环境中，通过优化工作记忆负载，可能有助于促进更深层次的概念理解和技能掌握。

值得注意的是，本研究发现智力与模型基于策略使用之间缺乏直接关联，这与传统双阶段任务的研究结果存在差异。这可能反映了不同任务范式对认知能力要求的差异：在确定性转换结构的任务中，任务特定的工作记忆能力可能比一般智力更为重要。这一发现提醒我们，在学习策略的研究中需要考虑任务特性的调节作用。

研究的局限性包括样本量相对较小，以及工作记忆负载与任务难度的潜在混淆。未来研究可以通过独立操纵工作记忆需求和任务难度，进一步厘清这些因素对学习策略选择的独特贡献。此外，结合神经影像学技术，有望揭示策略选择背后的神经机制，为理解人类适应性学习的认知神经基础提供新的视角。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号