OneStop：首个集成多阅读模式的大规模英语眼动追踪数据集及其在认知科学与人工智能中的应用

《Scientific Data》：OneStop: A 360-Participant English Eye Tracking Dataset with Different Reading Regimes

【字体：大中小】 时间：2025年12月04日 来源：Scientific Data 6.9

编辑推荐：

　　本文推荐研究人员为解决现有眼动数据集规模有限、阅读模式单一且缺乏高质量阅读理解评估的问题，开展了名为"OneStop"的大规模英语眼动追踪研究。该研究收集了360名母语者阅读新闻文本时的眼动数据，涵盖普通阅读、信息搜寻、重复阅读和简化文本阅读四种模式，数据量达2.6百万词次，超过现有所有英语L1眼动数据集总和。研究还包含486个经过严格设计的阅读理解问题，并提供了词汇频率、惊奇度等语言学标注。该数据集为阅读认知研究、自然语言处理(NLP)和人工智能(AI)模型训练提供了重要资源，已应用于实时预测信息搜寻状态、评估文本可读性等多个前沿方向。

当我们阅读时，眼睛如何移动？这些微小的跳动和凝视背后隐藏着怎样的认知过程？长期以来，眼动追踪技术一直是研究阅读和人类语言处理的重要方法。然而，现有公开的英语眼动数据集存在明显局限：数据规模较小，通常只包含单一阅读模式（即无特定目的地首次阅读文本），且缺乏高质量的阅读理解评估工具。这些问题严重制约了个体差异研究、机器学习应用以及对高水平阅读理解机制的深入探索。

正是在这样的背景下，来自以色列理工学院、谷歌DeepMind和麻省理工学院的研究团队在《Scientific Data》上发表了名为"OneStop"的创新性研究。他们构建了迄今为止规模最大的英语母语者眼动数据集，不仅数据量空前，还首次系统性地纳入了多种阅读模式，为认知科学、自然语言处理(NLP)和人工智能(AI)的交叉研究打开了新的局面。

这项研究的独特价值在于其多维度的实验设计。研究人员招募了360名英语母语者，收集了152小时的眼动记录，覆盖260万词次，数据量超过所有现有公开英语L1眼动数据集的总和。更重要的是，研究包含了四种精心设计的阅读模式：普通阅读理解（Gathering）、信息搜寻（Hunting，即先看问题再阅读）、重复阅读同一文本、以及阅读不同难度水平的文本（原始高级文本和简化初级文本）。

研究团队采用了严格的实验流程和质量控制措施。他们使用SR Research的Eyelink 1000 Plus眼动仪（1000Hz采样率），实施了严格的校准协议，平均验证误差仅为0.24度。文本呈现使用Lucida Sans Typewriter等宽字体，三重行间距以减少视线分配错误。实验设计还包含了自动化的漂移监测和重新校准机制，确保数据质量。

关键研究发现

数据集规模与质量的突破性进展

OneStop在参与者数量（360人）、记录词次（2,632,159）和阅读理解问题数量（486个）方面均创下新纪录。与现有数据集相比，其规模优势明显：SB-SAT仅有20个问题，而OneStop的问题数量是其24倍。数据质量分析显示，只有3.7%的注视点被错误地分配到错误行，证明了数据的高可靠性。

多阅读模式的独特价值

研究首次系统比较了不同阅读模式下的眼动特征。在信息搜寻模式下，参与者的阅读理解准确率达到86.9%，显著高于普通阅读模式的81.2%。重复阅读时，两种模式的准确率进一步提升至90.6%和84.2%，表明重复暴露对阅读理解有积极影响。这些发现为了解目标导向阅读的认知机制提供了新证据。

标准眼动指标的基准数据

研究提供了各种标准眼动指标的详细统计数据：平均注视持续时间191.6毫秒，首次注视持续时间193.7毫秒，凝视持续时间214.6毫秒，总注视持续时间306.6毫秒。这些数据与GECO L1等现有数据集具有可比性，但OneStop的跳读率（0.36）和首次通过跳读率（0.55）更高，反映了其独特的实验设计特点。

语言属性对阅读时间的影响

研究成功复现了经典的心理语言学发现：词汇惊奇度（surprisal）、频率和长度对阅读时间有显著影响。高频词的阅读时间更短，不可预测词（高惊奇度）的阅读时间更长，长词的阅读时间也更长。这些效应在首次注视持续时间、凝视持续时间和总注视持续时间三个指标上都达到统计显著性，验证了数据集的心理语言学效度。

高质量阅读理解材料的整合

研究采用的文本材料来自OneStopQA语料库，包含30篇《卫报》文章，每篇都有高级和初级两个难度版本。阅读理解问题采用独特的四选项设计，分别对应正确理解、关键信息误解、部分注意文本内容和无文本支持四种理解水平。这种精细的标注体系为研究眼动模式与阅读理解的关系提供了坚实基础。

技术验证与数据质量保证

研究团队实施了多项质量验证措施。校准质量分析显示，平均验证误差为0.24度（SD=0.05），仅15.5%的校准超过0.3度的目标阈值。注视点行分配错误分析表明，只有3.7%的注视点被错误分配，证明了数据的高精度。

研究的创新性还体现在数据处理和标注的完整性上。数据集不仅提供原始眼动数据（EDF和ASCII格式），还包括注视报告和兴趣区域报告，并添加了词汇频率、惊奇度、句法、形态和命名实体等丰富的语言学标注。这些标注使用spaCy工具生成，为多维度分析提供了便利。

研究意义与应用前景

OneStop数据集的发布标志着眼动研究进入了一个新阶段。其空前规模使个体差异研究成为可能，为理解不同读者的阅读策略和认知风格差异提供了宝贵资源。多阅读模式的纳入突破了传统实验设计的局限，使研究更贴近真实的阅读体验。

在应用层面，该数据集已经在多个领域展现出价值：实时预测信息搜寻状态、分析重复阅读的认知机制、评估文本可读性指标、以及改进机器阅读理解模型。研究团队还发现，该数据集可用于语言模型的心理学基准测试，为AI系统的认知合理性评估提供新方法。

从方法论角度看，研究的严格实验设计、高质量的数据收集流程和全面的技术验证为未来眼动研究设立了新标准。自动化的漂移监测和校准触发机制减少了实验人员的主观影响，三重行间距等显示优化措施提高了数据质量。

结论

OneStop眼动数据集通过其前所未有的规模、多阅读模式的实验设计、高质量的阅读理解材料和严格的数据质量控制，为阅读认知研究提供了革命性的资源。它不仅填补了现有眼动数据在规模和应用范围上的空白，更为心理学、语言学、自然语言处理和人工智能的跨学科研究搭建了重要桥梁。随着该数据集的广泛应用，我们有望在人类阅读理解的认知机制、个体差异以及机器阅读模型的优化等方面取得突破性进展。该研究代表了眼动数据分析方法的重要进步，为理解这一最基础的人类认知活动提供了新的视角和工具。

热点排行