与读者阅读体验相匹配的语言模型能更准确地预测阅读所需时间

《Journal of Memory and Language》:Language models that match reader experience are better predictors of reading times

【字体: 时间:2025年10月09日 来源:Journal of Memory and Language 3

编辑推荐:

  人类因领域知识差异导致语言处理预期不同,影响阅读行为。本研究通过德国PoTeC眼动数据集,对比全微调与适配器两种领域适应方法对语言模型surprisal估计的预测效果。发现读者对齐的surprisal在后期测量(go-past、total RT)中显著优于通用模型,且适配器方法在参数效率上更具优势,但需更多训练步数。这表明语言模型需结合读者个体经验而非仅文本特征才能有效预测认知负荷,但需注意适配器在早期训练中的表现不足。

  人类在语言经验上存在差异,这些差异源于个人的兴趣、阅读习惯和职业背景。这种经验差异可能会对他们在阅读特定领域文本时的言语预期产生影响。本文探讨了训练以匹配读者经验的语言模型是否能够更准确地预测这些读者的阅读时间,而不仅仅是通常使用的通用语言模型。研究基于一个德国的阅读眼动数据集,该数据集包含了生物和物理专业学生的阅读行为数据,通过两种领域适应方法以及不同训练数据量,对语言模型进行了调整。研究结果表明,与使用高语言准确性模型相比,将语言模型与读者经验对齐,可以更有效地预测后期的阅读行为。

### 引言

“惊讶度”(surprisal)是一个重要的心理语言学概念,用于量化语言单位(如词语)在特定上下文中的可预测性。它被广泛用于建模人类在语言理解过程中的处理努力。许多研究已经将惊讶度与阅读时间等行为指标联系起来,例如Demberg和Keller(2008)、Smith和Levy(2013)以及Wilcox等(2020)的研究,还与神经反应如N400波形相关(Frank等,2015;Michaelov等,2024;Szewczyk和Federmeier,2022)。尽管如此,惊讶度在预测人类阅读行为方面的效果仍存在争议,尤其是近期研究发现,即使语言模型在语言准确性上表现出色,它们在预测人类行为方面也表现不佳。例如,de Varda和Marelli(2023)、Oh和Schuler(2023a和2023b)以及Shain等(2024)的研究均表明,惊讶度在预测阅读时间方面存在一定的局限性。

为了更深入地理解惊讶度的预测能力,本文探索了如何通过将语言模型与读者的背景知识和经验对齐来改进其对阅读行为的预测。人类在语言处理上的差异不仅体现在词汇量上,还体现在对特定领域知识的理解和应用能力上。例如,生物专业的学生在阅读生物学文本时,其阅读效率和准确率通常高于非专业读者,这可能是因为他们在处理文本时能够更快速地激活相关概念,同时减少回读的频率(Jian & Ko, 2014)。而当文本内容与读者的背景知识相矛盾时,这种不一致可能会影响其神经反应和行为表现,如更长的阅读时间以及更多的回读行为(van Moort等,2020)。因此,语言模型需要考虑到这些个体差异,以更准确地反映人类的阅读行为。

### 背景

背景知识在语言处理中起着至关重要的作用。大量实证研究表明,背景知识对理解的影响是显著的,足够的背景知识有助于正确推断和提高记忆效果,而缺乏必要知识可能导致理解困难(Kaakinen等,2003;Kendeou和van den Broek,2007;Kendeou等,2004;Ozuru等,2009;Tarchi,2010)。在在线阅读测量中,如阅读行为,处理困难往往表现为更慢的阅读速度和更多的回读行为。例如,遇到陌生或不常见的词汇会导致更慢的阅读速度和更高的回读频率(Just和Carpenter,1980;Lowell和Morris,2014)。这同样适用于对特定领域词汇的熟悉程度。科学文本通常包含大量专业术语和概念,这要求读者具备相关领域的知识和概念之间的关系。

Jian和Ko(2014)的研究表明,具有更高背景知识的读者在处理物理文本时表现出更快的阅读速度和更低的回读率。此外,文本内容与读者背景知识之间的矛盾也会对神经和行为测量产生影响,例如触发更大的N400波幅(Troyer和Kutas,2018;Troyer等,2020)或更长的阅读时间(van Moort等,2020)。尽管背景知识在语言处理中起着重要作用,但如何将世界或领域知识与语言输入整合到理解模型中仍然是一个挑战。Frank等(2008)指出,许多关于话语理解的理论模型难以捕捉必要的世界知识,从而导致预测结果存在问题。为了解决这一差距,Venhuizen等(2019)提出了一种基于微世界模拟的模型,该模型利用有限的词汇和知识来建模理解。他们的研究发现,当惊讶度由词汇材料和世界知识的交互决定时,理解可以更好地被建模,而不是仅仅依赖于文本或知识的惊讶度。

### 语言模型的预训练与领域适应

近年来,研究者在建模逐词阅读过程中通常使用预训练的Transformer语言模型。尽管存在不同的语言模型架构,但本文关注的是解码器类型的语言模型,它们被训练用于生成文本(即下一个词预测的目标)。在实践中,语言模型通常经历两个阶段的训练:一是预训练阶段,二是针对目标领域或任务的迁移学习。在预训练阶段,模型参数基于输入训练数据进行更新。现代语言模型通常在庞大的训练语料库上进行训练,这些语料库的规模远远超过发展上合理的数据量(Warstadt & Bowman, 2022)。然而,这些庞大的训练数据是否必要仍存在疑问。Zhang等(2021)的研究表明,基本的句法和语义特征可以在100万到1000万词的训练数据中成功编码,而剩余的数据暴露用于学习更高层次的技能,如常识推理。

如果目标领域(即下游任务)的特征分布与预训练模型的特征分布不同,模型将经历第二阶段的训练,即通过迁移学习来适应目标领域或任务。该方法的核心思想是将已学习的语言表示转移到下游任务,通常会导致更高的性能(Gururangan等,2020)。在迁移学习的方法中,我们考虑了两种关注领域适应的方法:完全微调和通过适配器权重进行适应。完全微调方法通过更新所有模型参数来专门化于目标领域,这可能会导致对通用语言特征的遗忘。相比之下,适配器方法通过在预训练模型的层之间插入新的层(适配器权重,包括前馈层)来实现参数高效的适应。这些权重的维度小于预训练模型的维度。在训练过程中,预训练模型的层被冻结,而适配器权重则根据训练数据的损失函数进行更新。适配器权重的作用是根据目标领域对冻结的预训练权重进行转换。随着预训练语言模型的规模越来越大,完全微调的计算成本也相应增加,而适配器方法则可以在较少的资源下实现相似的性能(Pfeiffer等,2020)。

从认知可解释性的角度来看,这两种适应方法提供了不同的视角。完全微调方法完全适应于目标领域,这可能会以牺牲通用语言特征为代价。相比之下,适配器方法可能更接近人类如何根据上下文调整其语言预期,同时保留其通用语言能力。然而,两者与人类语言学习的关键区别在于,模型的词汇表在适应过程中保持不变,这与人类语言处理存在差异(Gaskell和Ellis,2009;Laine等,2014)。

探索这两种领域适应技术的动机在于它们可能存在的权衡。一方面,完全微调方法可能会因为过度拟合领域特定属性而失去对通用语言特征的表示。另一方面,它可能更好地捕捉目标领域的确切特征,因为先前学习的语言属性会被覆盖。在预测能力方面,这两种方法的性能预期相似(Pfeiffer等,2020),但尚不清楚它们在建模人类阅读时间时的惊讶度估计会有怎样的不同。

### 研究1:领域熟悉度是否影响阅读?

本研究探讨了领域熟悉度对语言理解的影响,特别是对三种阅读时间指标。先前对PoTeC数据集的研究发现,领域专家比非专家阅读更快(Jakobi等,2025;?krjanec等,2023),因此本研究作为这些结果的复制,并为研究2和研究3提供基础。

研究采用三种阅读时间指标:首次注视时间(FPRT)、回读时间(GP)和总注视时间(TFT)。在分析中,这三个指标被对数转换并作为响应变量,用于拟合单词级别的线性混合效应回归模型(使用lme4包)。通过lmerTest包计算p值(使用Satterthwaite方法)。我们考虑了以下预测变量:单词长度(以字符数计)、单词在文本中的位置、词频(基于dlexDB估计的标准化词频)、术语(是否为技术术语)、领域知识(专家或新手)以及术语与领域知识的交互作用。这些预测变量中的连续变量被标准化和中心化,而二元变量则被编码为-1和1。

对于每种阅读时间指标,我们拟合了基线回归模型,并评估了领域知识对模型拟合的影响。结果表明,单词长度和位置在所有三种指标中都有显著影响:更长的单词和文本中更早出现的单词具有更长的阅读时间。词频在回读时间和总注视时间中也具有显著影响。领域知识对整体阅读速度也有显著影响:专家的阅读时间比新手更短。术语对所有指标都有显著影响:领域特定术语比常见单词读得更慢。此外,我们还发现领域知识与术语的交互作用:领域专家读技术术语的速度比新手更快(即他们在技术术语上的阅读时间减速较小)。这些结果在附录中详细列出。

为了更好地理解领域知识对阅读时间的影响,我们将这些影响从对数转换为线性空间,以毫秒为单位。结果表明,领域知识对阅读时间的影响显著,尤其是在回读时间和总注视时间中。这些影响的置信区间显示,这些效应可以被清晰地检测到。

### 研究2:读者对齐的惊讶度预测能力如何?

本研究探讨了领域知识对读者处理努力的影响,并研究了通过两种领域适应技术(完全微调和适配器训练)以及不同训练数据量对处理努力预测的准确性。研究发现,完全微调模型在处理特定领域文本时表现更优,而适配器方法虽然更高效,但在预测能力上需要更多的训练步骤才能达到相似的水平。

研究使用了GerPT2语言模型,该模型在生物和物理领域进行了适应。在分析过程中,我们比较了不同训练步骤下的模型表现,以评估其对阅读时间的预测能力。结果表明,完全微调模型在处理特定领域文本时表现出更高的准确性,而适配器方法虽然更高效,但在预测能力上需要更多的训练步骤才能达到相似的水平。此外,完全微调模型在处理跨领域文本时表现出更高的适应能力,但其在通用文本上的表现会逐渐下降,这表明模型可能出现了过拟合现象。

研究还发现,完全微调模型在处理特定领域文本时的惊讶度估计更加准确,而适配器方法在早期训练阶段的惊讶度估计较高,但随着训练的进行,其惊讶度估计逐渐下降。这表明,适配器方法在处理领域特定文本时能够更好地调整其预测能力。然而,完全微调模型在处理通用文本时的表现则逐渐变差,这可能是因为模型在适应过程中丢失了对通用语言特征的表示。

### 研究3:哪种语言模型对齐方式对阅读时间预测最有帮助?

本研究比较了文本对齐和读者对齐的惊讶度预测能力。我们发现,读者对齐的惊讶度在预测后期阅读时间指标时表现更优,而文本对齐的惊讶度在预测早期指标时效果相似。这一结果表明,将语言模型与读者经验对齐可以更准确地预测其处理努力,尤其是在后期阅读时间指标中。

此外,研究还发现,完全微调模型在处理特定领域文本时的惊讶度估计更准确,而适配器方法虽然更高效,但在预测能力上需要更多的训练步骤才能达到相似的水平。因此,适配器方法可能更适合那些需要大量训练数据的任务,而完全微调方法则更适合那些对模型性能有更高要求的场景。

### 总结

本文通过比较文本对齐和读者对齐的惊讶度预测能力,探讨了如何通过领域适应技术提高语言模型对人类阅读行为的预测准确性。研究发现,读者对齐的惊讶度在预测后期阅读时间指标时表现更优,而文本对齐的惊讶度在预测早期指标时效果相似。这表明,将语言模型与读者经验对齐可以更准确地反映其处理努力,尤其是在后期阅读时间指标中。此外,研究还发现,完全微调模型在处理特定领域文本时表现更优,而适配器方法虽然更高效,但在预测能力上需要更多的训练步骤才能达到相似的水平。

总体而言,本研究为语言模型的领域适应技术提供了新的视角,强调了读者对齐的重要性。尽管文本对齐的模型在预测早期阅读时间指标时效果相似,但读者对齐的模型在预测后期指标时表现更优。这表明,语言模型的适应不仅需要考虑文本特征,还需要考虑读者的经验和背景知识。未来的研究可以进一步探索如何通过更精细的领域适应技术,提高语言模型在不同阅读任务中的预测能力。此外,研究还强调了模型对齐与人类认知机制之间的差异,指出语言模型的惊讶度估计虽然能够反映人类的阅读行为,但其内部机制仍需进一步探索。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号