强化学习与记忆特异性从儿童到成年的发展关联及其环境适应性机制

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年05月01日 来源：Nature Communications 14.7

编辑推荐：

　　本研究探讨了从童年到成年期间，环境奖励统计如何动态塑造价值引导学习与记忆特异性的发展轨迹。通过两项强化学习实验（N=224），研究人员发现8-25岁个体能根据环境需求灵活调整刺激表征的粒度：当学习依赖细节表征时，记忆特异性增强；而依赖类别表征时仅提升类别记忆。更关键的是，学习与记忆特异性的耦合强度随年龄增长而增强，揭示了奖励环境通过塑造表征粒度进而影响记忆发展的新机制。该成果发表于《Nature Communications》，为理解发展过程中学习-记忆系统的协同进化提供了重要证据。

在认知发展的漫长历程中，人类如何学会以最合适的粒度解析世界，又如何在记忆中保存这些经验？这个问题困扰着发展认知科学家。日常生活中，我们既需要记住上周五在意大利小馆吃的碳ara面细节，也需要抽象出"面食"概念来尝试新菜品。这种表征特异性（representational specificity）的平衡对适应性行为至关重要，但其发展机制尚不明确。传统理论认为儿童倾向于更泛化的表征，但近期研究显示这种轨迹可能并非简单线性——环境结构和个体学习策略的交互可能起着关键作用。

纽约大学的研究团队在《Nature Communications》发表的研究，通过精巧设计的强化学习范式，首次系统揭示了从童年到成年期间，环境奖励统计如何动态塑造价值引导学习（value-guided learning）与记忆特异性的发展轨迹。研究采用跨年龄段（8-25岁）的纵向实验设计，结合计算建模和记忆测试技术，在224名参与者中捕捉了学习表征粒度与记忆编码的动态关系。

研究主要运用三类关键技术：1）多条件强化学习任务（含类别预测性和样例预测性区块），通过不同奖励结构操纵表征粒度的适应性需求；2）贝叶斯分层强化学习模型（fourB_oneQ模型）量化个体在类别和样例层面的选择权重（choice weights）；3）延迟一周的记忆测试采用接收者操作特征曲线分析（ROC-AUC），区分类别记忆和样例记忆特异性。所有实验通过jsPsych在线平台实施，确保了发展群体测试的标准化。

实验1设计
研究团队设计了包含6个区块的"趋近/回避"任务，每个区块使用15个来自3个基本层级类别（如宠物、水果）的独特样例。关键创新在于区块分为两类：在类别预测性区块中，奖励由刺激类别决定；而在样例预测性区块中，每个独特样例有确定值。通过这种设计，研究人员能观察参与者如何根据环境统计调整学习策略。

学习表现分析
混合效应模型显示，所有年龄段都能利用类别信息提升表现（χ²(1)=185.2, p<0.001），但成人表现出更强的类别优势（年龄×条件交互：χ²(1)=6.8, p=0.009）。面对新刺激时，8岁儿童已能进行类别泛化，但成人泛化效率更高（OR=1.07, 95%CI[1.02,1.13]）。计算建模揭示四权重模型（fourB）最能解释数据（XP=1），显示人类普遍采用双通道（类别/样例）价值更新机制。

记忆特异性发现
延迟记忆测试出现意外结果：虽然样例预测性区块整体记忆更强（β=-0.008, p<0.001），但预期中的条件×特异性交互未出现。深入分析发现，学习表现优异者在样例预测性区块展现出更强的记忆特异性提升（β=0.007, p=0.018），且这种关联随年龄增强（β=0.016, p=0.004）。这表明环境通过学习策略间接塑造记忆，而非直接决定编码特异性。

实验2验证
为增加认知负荷，研究者将选择选项增至三个并采用二元奖励。结果复现了实验1的核心发现：成人更灵活地调整类别权重（β=0.18, p=0.007），且学习-记忆耦合的年龄差异更显著（交互效应β=-0.016, p=0.045）。特别值得注意的是，儿童在类别预测性区块表现出独特的"高类别权重→高记忆"关联，暗示发展早期可能存在不同的学习-记忆整合模式。

讨论部分指出，这项研究突破了传统发展理论的三个局限：首先，表征特异性发展并非简单线性，而是体现为环境统计与个体学习策略的动态交互；其次，记忆特异性不仅取决于编码时的环境需求，更与个体实际采用的学习表征粒度密切相关；最后，学习与记忆系统的耦合强度本身存在发展性变化，这可能反映了前额叶调控功能的成熟。

这些发现对教育实践和认知干预具有启示意义：在强调知识泛化的教学场景中，适度引导儿童关注细节特征可能促进更稳固的记忆形成。研究也提出了新问题——为何成人能更有效地将学习表征转化为记忆痕迹？作者推测这可能与海马-前额叶环路的发育以及记忆巩固（memory consolidation）过程的效率提升有关，这为未来认知神经机制研究指明了方向。

该研究的创新性在于首次将强化学习计算模型与发展记忆研究相结合，揭示了从儿童到成人过程中，奖励环境如何通过塑造学习表征的粒度，进而影响记忆系统的特异性编码。这种学习-记忆的协同发展模式，为理解人类认知系统的环境适应性提供了全新视角。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号