
-
生物通官微
陪你抓住生命科技
跳动的脉搏
跨语言阅读研究的突破:多语言眼动语料库MECO第二波数据发布及其认知科学意义
【字体: 大 中 小 】 时间:2025年07月11日 来源:Scientific Data 5.8
编辑推荐:
本研究针对阅读研究中存在的数据偏差问题,通过多实验室合作构建了包含13种语言的Multilingual Eye-Movement Corpus(MECO)第二波数据集(N=654),新增了巴斯克语、汉语简繁体等8种研究不足的语言。研究采用标准化的EyeLink眼动仪记录文本阅读行为,通过语义相似性分析和Coh-Metrix文本复杂度评估验证了材料可比性,为建立普适性阅读理论提供了关键数据支撑。
在认知科学领域,阅读研究长期存在一个令人担忧的现象:超过50%的眼动研究集中在英语这一种语言上,而全球约4000种书面语言中仅有28种被研究过。这种严重的"英语中心主义"偏差使得现有阅读理论难以解释不同文字系统(如字母文字、汉字、天城文等)的认知加工差异。更令人担忧的是,像巴斯克语、冰岛语等语言几乎从未出现在眼动研究中,导致我们对人类阅读认知的理解存在巨大空白。
为破解这一困局,由以色列耶路撒冷希伯来大学(Hebrew University of Jerusalem)Noam Siegelman博士和加拿大麦克马斯特大学(McMaster University)Victor Kuperman教授领衔的国际团队发起了Multilingual Eye-Movement Corpus(MECO)项目。这项覆盖16个实验室、15个国家的大规模合作研究,最新在《Scientific Data》发布了第二波数据,新增了654名参与者的眼动记录,将研究语言扩展至21种,其中包括7种此前研究极少的语言。
研究人员采用三大关键技术方法:(1)使用SR Research EyeLink眼动仪(1000Hz采样率)标准化记录文本阅读行为;(2)通过反向翻译和LSA余弦相似度分析(均值0.89)确保12篇文本材料在13种语言间的语义可比性;(3)应用Coh-Metrix工具量化10项文本可读性与复杂度指标,发现匹配文本在Flesch-Kincaid可读性等指标上无显著差异(p>0.05)。参与者群体为各国大学生,完成L1阅读任务后还进行了CFT-20非言语智力测试和LEAP-Q语言背景问卷。
【测试地点与语言特征】研究新增了包括巴斯克语(孤立语系)、汉语简繁体(汉藏语系)、丹麦语(日耳曼语系)等8种语言,其中9种语言在2000-2018年眼动研究中的占比不足1%。表2详细列出了各语言的文字系统类型(如汉语为语素文字、印地语为元音附标文字)和正字法透明度特征。
【数据质量验证】通过分半信度分析显示,参与者在首次注视时间(firstfix.dur)、凝视时间(firstrun.dur)等指标上表现出极高信度(校正后r>0.9)。表11显示汉语繁体文本的词汇水平信度相对较低(r=0.37),反映了文字系统的特殊性。
【跨语言比较】图1揭示了显著的跨语言差异:汉语阅读者表现出更高的跳读率(skip)和回视率(reg.in),而巴斯克语(黏着语)和印地语(复杂文字)阅读者的单次注视时间显著更长。这种模式验证了文字系统和语言类型对眼动模式的调节作用。
【文本属性分析】表7显示匹配文本在叙事性(PC narrativity)、简易性(PC simplicity)等10项指标上无语言间差异(p>0.05),而非匹配文本在2项指标上存在差异,证实了研究材料的标准化程度。
这项研究通过构建迄今最全面的多语言眼动数据库,为突破阅读研究的"英语中心主义"提供了关键资源。特别值得关注的是,研究首次包含了汉语简繁体对照数据,以及使用天城文的印地语数据,填补了语素文字和元音附标文字研究的空白。通过严格的材料控制和数据验证(如popEye软件的眼动数据预处理),MECO项目使真正普适性的阅读认知模型成为可能。正如作者强调的,未来研究可以结合这些标准化数据与特定语言的深度分析,最终建立能解释所有文字系统的统一阅读理论。该数据库已通过OSF平台开放获取,必将推动第二语言习得、阅读障碍跨文化研究等领域的突破性进展。
生物通微信公众号
知名企业招聘