Transformer与人类学习的惊人相似性:数据分布如何共同塑造记忆与推理策略

《Nature Human Behaviour》:Shared sensitivity to data distribution during learning in humans and transformer networks

【字体: 时间:2025年12月24日 来源:Nature Human Behaviour 15.9

编辑推荐:

  本研究通过对比人类与Transformer网络在规则学习任务中的表现,揭示了二者对训练数据分布的敏感性存在惊人相似性。研究发现,无论是人类还是Transformer,其“情境学习”(in-context learning)与“权重学习”(in-weights learning)策略均受数据冗余度与多样性的权衡所驱动。然而,人类能够从早期强调多样性的动态课程中获益,而Transformer则因灾难性干扰而无法从中受益,这为理解人类与人工智能学习机制的异同提供了关键洞见。

  
在认知科学中,记忆与推理的关系是一个古老而核心的问题。人类既能够记住具体的过往经验,也能进行强大的归纳推理,从而解决从未遇到过的新问题。这种双重能力在心理学和神经科学中通常被描述为“双过程”理论,例如晶体智力与流体智力、启发式与理性计算、联想过程与符号过程等。然而,支撑人类同时利用记忆和归纳推理来解决复杂问题的计算机制,至今仍是一个未解之谜。
近年来,人工智能领域中的Transformer网络展现出了令人瞩目的“情境学习”(in-context learning)能力,即仅通过输入序列中的上下文信息,就能在未经权重更新的情况下进行少样本学习。这种能力与人类的归纳推理颇为相似。与此同时,Transformer通过修改权重来存储信息的“权重学习”(in-weights learning)则类似于人类的记忆。这为研究记忆与推理的相互作用提供了一个绝佳的计算模型。
那么,人类和Transformer网络在学习过程中,是否会对训练数据的统计特性表现出相似的敏感性?它们如何根据数据分布来权衡记忆与推理这两种策略?为了回答这些问题,来自牛津大学和艾克斯-马赛大学的研究团队在《Nature Human Behaviour》上发表了一项研究,通过精心设计的实验,系统性地比较了人类和Transformer网络在学习策略上的异同。
研究方法概览
本研究采用计算建模与行为实验相结合的方法,系统比较了人类与Transformer网络的学习策略。研究团队设计了一个图像-标签关联任务,受试者或模型需要根据一个包含图像和数字的上下文序列,预测中心查询图像的标签。通过操纵训练数据的分布(从均匀分布到高度偏斜的Zipf分布),研究人员能够分离并量化“情境学习”(利用上下文规则进行推理)和“权重学习”(记忆具体的图像-标签对)两种策略。
  • 人类行为实验:研究招募了530名在线参与者,通过JavaScript编写的实验程序进行任务。实验通过组间设计,让不同组别的参与者接受不同数据分布的训练,并在训练后通过专门的测试模块评估其学习策略。
  • Transformer模型训练:研究训练了包含两个注意力层的Transformer网络,以及作为对照的多层感知机(MLP)和长短期记忆网络(LSTM)。模型输入经过位置编码,通过交叉熵损失进行优化。
  • 机械可解释性分析:通过对Transformer注意力模式的解构,研究揭示了其实现情境学习的内部机制,即“归纳头”(induction head)的计算过程。
  • 鼠标轨迹追踪:在部分人类实验中,研究人员使用MouseView.js技术追踪参与者的鼠标轨迹,以揭示其在线推理过程中的注意力分配模式。
研究结果
1. Transformer网络根据数据分布权衡情境学习与权重学习
研究人员首先在Transformer网络上复现了先前的研究发现。当训练数据分布高度多样(均匀分布,α=0)时,Transformer倾向于成为情境学习者,在遇到新序列时能利用上下文规则进行推理,但在记忆具体图像-标签对方面表现不佳。相反,当训练数据分布高度冗余(偏斜分布,α>1)时,Transformer则倾向于成为权重学习者,能够准确回忆训练中见过的图像-标签对,但无法泛化到新序列。这两种策略在α≈1附近发生转换,且绝大多数Transformer模型(约93.3%)只掌握了其中一种策略,表现出明显的权衡关系。
2. 人类学习者表现出与Transformer相似的权衡模式
令人惊讶的是,人类参与者在面对相同的任务时,表现出了与Transformer网络极其相似的模式。在均匀分布下训练的人类,在情境测试中表现出色,但在权重测试中表现接近随机水平;而在偏斜分布下训练的人类,则表现出相反的模式。这表明,人类和Transformer网络对训练数据分布的敏感性具有惊人的相似性,两者都倾向于根据数据统计特性在记忆与推理策略之间进行权衡。
3. 混合分布促进双重学习,但人类受益于动态课程
为了探究是否可能同时掌握两种策略,研究人员设计了一种混合训练分布,其中一部分数据来自均匀分布,另一部分来自偏斜分布。结果发现,无论是Transformer还是人类,在这种混合分布下都能同时掌握情境学习和权重学习,成为“双重学习者”。然而,当研究人员进一步设计动态课程(例如,先呈现多样化的例子,再呈现冗余的例子)时,一个关键差异出现了:人类能够从这种“先情境后权重”的课程中获益,其情境学习能力得到提升且不影响权重学习;而Transformer则表现出灾难性干扰,在训练后期会遗忘早期习得的策略,无法从动态课程中受益。
4. 人类与Transformer共享相似的归纳机制
为了深入理解情境学习的机制,研究人员对Transformer进行了机械可解释性分析,发现其通过两个注意力头实现情境学习:第一个头执行“绑定”操作,将图像与其对应的标签关联起来;第二个头执行“搜索”操作,在上下文中寻找与查询图像匹配的项,并输出其标签。这种机制被称为“归纳头”。通过追踪人类参与者的鼠标轨迹,研究人员发现,人类在解决情境测试任务时,也经历了类似的“搜索-绑定”过程:他们首先在上下文中寻找目标图像,然后移动到其对应的标签位置。这表明,人类和Transformer在解决情境学习任务时,可能采用了相似的归纳推理机制。
结论与讨论
这项研究揭示了人类与Transformer网络在学习策略上存在深刻的相似性。两者都根据训练数据的分布特性,在记忆(权重学习)与推理(情境学习)之间进行权衡。当数据分布包含冗余与多样性的平衡时,两者都能成为双重学习者。然而,一个关键的区别在于,人类能够从强调早期多样性的动态课程中获益,而Transformer则因灾难性干扰而无法从中受益。
这一发现具有重要的理论和实践意义。在理论上,它表明Transformer网络可以作为研究人类认知策略权衡的一个有价值的计算模型。在实践上,它揭示了人类学习的一个关键优势:早期接触多样化的例子有助于建立强大的归纳推理能力,而这种能力在后续接触重复信息时不会被轻易覆盖。这为教育实践提供了启示,即课程设计应优先考虑提供多样化的学习经验,以促进学生的深度理解和灵活迁移能力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号