基于多语言大语言模型的句子级阅读速度计算指标及其对跨语言句子理解的启示

【字体: 时间:2025年08月04日 来源:Cognitive Science 2.4

编辑推荐:

  这篇综述创新性地提出了句子级 surprisal(惊异值)和 relevance(相关性)两种计算指标,通过m-BERT/mGPT等多语言大语言模型(LLMs),采用链式法则(CR)、下一句预测(NSP)和负对数似然(NLL)三种方法量化句子处理难度。"记忆感知"卷积算法巧妙模拟人类工作记忆机制,在13种语言的MECO眼动数据库验证中,发现句子级指标能显著预测阅读速度(ΔAIC<-1700),为理解跨语言句子理解的双机制(预测与记忆整合)提供了新工具。

  

摘要

研究突破传统词汇级心理语言学分析框架,首次系统构建句子级处理指标。通过m-BERT/mGPT模型创新性实现三种surprisal计算路径:链式法则(CR)通过条件概率连乘估算句子联合概率,负对数似然(NLL)评估模型对真实序列的"惊讶"程度,而BERT特有的下一句预测(NSP)机制则直接建模句间预测关系。记忆感知的sentence relevance计算采用卷积加权算法,对目标句周围2-1-1窗口(前两句+后一句)的余弦相似度进行非线性衰减加权(权重1.0/0.7/0.5),模拟人类记忆的近因效应。

材料与方法

采用包含13种语言、7万余数据点的多语言眼动语料库(MECO),以句子阅读速度(单词数/总注视时长)为核心指标。控制变量包括句子平均词长和词频(来自OpenSubtitles语料库),通过广义加性混合模型(GAMMs)分析,引入语言类型和参与者随机效应。值得注意的是,句子surprisal与relevance的相关系数r<0.2,证实二者捕获不同认知维度。

结果

在跨语言分析中,mGPT-CR计算的句子surprisal表现最优(ΔAIC=-1718.3),而m-BERT的relevance指标预测力最强(ΔAIC=-1794.5)。二者联合建模时产生协同效应(ΔAIC=-3818.12),显著优于单一指标。部分效应图显示:log转换后的surprisal与阅读速度呈负向关系(EDF=8.83,F>30),而relevance呈现正向关联,印证预测难度与语义整合的双重影响。控制变量中,平均词频促进阅读(β>0),词长则产生抑制(β<0)。

讨论

主要发现

句子级指标成功捕捉到词汇层面无法解释的"超加性效应":当句子结构复杂或语义脱节时,其处理难度超过组成词汇难度的简单累加。这与Boston等(2008)提出的句法依存累积负荷理论相呼应。

认知机制

惊异值反映前向预测机制——读者基于前文构建句级概率模型,如"The cat sat on the..."后接"mat"比"cloud"引发更低surprisal。相关性则体现后向整合机制,例如科技文中突然插入抒情句会导致relevance骤降。这种预测-记忆双系统框架与Lewis的ACT-R模型高度吻合。

跨语言启示

尽管英语等孤立语依赖词序预测(CR权重更高),土耳其语等黏着语可能更注重形态线索,但13种语言共现的显著效应(p<0.01)提示存在普适性认知原则。研究特别发现汉语阅读中relevance效应更强,可能与汉字形义关联特性有关。

局限与展望

当前模型尚未区分句法复杂性与语义荒谬度(如"Colorless green ideas"高surprisal但低relevance)。未来可通过操纵句法树深度与语义向量夹角设计对照实验。另需纳入脑电(N400)等神经指标,验证句子级指标与认知负荷的生理关联。在医疗场景下,该模型或可量化失语症患者的句级理解障碍模式。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号