
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Transformer的句子加工记忆预测机制:整合期望与记忆干扰的新理论框架
【字体: 大 中 小 】 时间:2025年07月29日 来源:Journal of Memory and Language 2.9
编辑推荐:
研究人员针对人类句子加工中期望驱动与记忆干扰理论的割裂问题,开展了一项整合Transformer神经网络与心理语言学理论的研究。通过分析GPT2-small的注意力机制,提出注意力熵(attention entropy)作为记忆相似性干扰(similarity-based interference)的量化指标,成功解释了宾语关系从句和中心嵌套结构的加工难度差异,并在自然语料阅读时间预测中验证了其独立于 surprisal 的贡献。该研究为构建计算化、可解释的句子加工统一模型提供了新范式。
在理解复杂句子时,人类大脑如何平衡预期与记忆负荷?这个困扰心理语言学界数十年的难题,随着人工智能领域Transformer模型的崛起获得了新的解决思路。传统理论分裂为两派:以surprisal为核心的期望驱动理论强调预测误差对加工难度的影响,而基于工作记忆的干扰理论则关注句法结构复杂度导致的检索冲突。尤其当处理"The reporter that the senator attacked admitted the error"这类宾语关系从句时,动词位置出现的加工延迟难以用单纯的概率预测解释,暗示着记忆系统的固有局限。
国外研究团队创新性地将GPT2-small模型的注意力机制类比为人类语言处理的记忆检索系统。通过可视化分析发现,当处理存在干扰项的语法结构时(如复数名词吸引动词一致关系错误),模型的注意力分布呈现显著扩散特征。基于此提出注意力熵指标,量化注意力权重在历史词项上的分散程度,将其作为记忆检索过程中相似性干扰的代理变量。
研究采用三大证据链验证理论:首先通过控制实验展示注意力熵在宾语关系从句嵌入动词位置的峰值响应;其次证明中心嵌套结构中深层动词的熵值增幅与人类加工难度模式吻合;最后在GECO眼动语料和Natural Stories自定步速阅读数据中,证实注意力熵对阅读时间的独立预测效力。论文发表于《Journal of Memory and Language》,为构建可计算的句子加工统一模型开辟了新路径。
关键技术包括:1)基于斯坦福依存解析器(Stanford Dependency Parser)的注意力头筛选算法,从144个注意力头中识别20个与句法依赖相关的功能头;2)窗口大小为30的上下文注意力熵计算;3)贝叶斯混合模型分析阅读时间数据,控制词频、词长等协变量。
【相对从句和中心嵌套结构】
通过对比主语/宾语关系从句材料发现,surprisal仅在从句名词起始处捕捉到差异,而注意力熵在嵌入动词位置显著升高。可视化head4,3的注意力模式显示,宾语从句中动词同时关注主语和干扰名词,熵值达1.2bit,较主语从句增加37%。
【阅读时间建模】
在包含18万数据点的混合效应模型中,注意力熵与surprisal存在显著交互作用(b=0.90, 95%CI[0.46,1.35])。特别在眼动数据中,go-past时间对当前词熵值敏感(b=3.27),而首次注视时长受前词熵值影响(b=2.35),暗示记忆整合效应的时空动态性。
该研究的重要意义在于:首次在计算模型中实现了期望驱动与记忆干扰理论的有机融合,注意力熵指标为经典的干扰效应(如Gibson的依存 locality 理论)提供了可量化的计算基础。研究同时揭示,Transformer模型通过分布式表征自然涌现出类似人类的记忆约束模式,这种"优化缺陷"恰是系统为获得泛化能力付出的必要代价。未来结合机械可解释性工具(mechanistic interpretability)干预特定注意力头,有望进一步揭示语言加工的计算本质。
生物通微信公众号
知名企业招聘