SIGNAL数据集:融合语义与语法推断的神经语言分析新资源
《Scientific Data》:SIGNAL: Dataset for Semantic and Inferred Grammar Neurological Analysis of Language
【字体:
大
中
小
】
时间:2025年10月26日
来源:Scientific Data 6.9
编辑推荐:
本研究针对脑-模型对齐研究中缺乏标准化语言刺激材料的问题,开发了包含600个俄语句子的SIGNAL数据集,结合64通道EEG记录和LLM探测验证。结果表明该数据集能有效区分语义/语法异常引发的N400和P600成分,为探索人类与LLMs语言处理机制的异同提供了高质量资源。
语言是人类独有的高级认知功能,其神经机制一直是脑科学研究的热点。近年来,随着大语言模型(LLMs)在自然语言处理领域的突破性进展,研究者开始探索一个有趣的问题:这些人工智能模型的语言处理方式与人类大脑是否存在相似性?这种被称为"脑-模型对齐"的研究方向,试图在人工神经网络与生物神经网络之间建立桥梁,既有助于开发更接近人脑处理机制的人工智能系统,也能深化我们对语言神经基础的理解。
然而,现有的脑-模型对齐研究面临一个重要挑战:缺乏标准化且严格控制语言特性的实验材料。大多数研究使用新闻报道或叙事文本作为刺激材料,这些材料在词汇语义、句法结构和心理语言学特性上缺乏系统控制。与此同时,LLMs的可解释性研究越来越关注基于特定可接受性度量的精心设计的语言任务。这种不对称性限制了脑-模型对齐研究的深入发展。
更关键的是,现有数据集大多基于正常语句,缺乏对异常语言处理的研究。而根据预测编码理论,生物神经系统与人工系统的关键差异可能恰恰体现在处理不可预测信息的能力上。人类大脑能够处理不同加工水平上无法从语境中直接预测的信息,而LLMs基于统计模式运行,无法像大脑那样预测和纠正预测与现实之间的差异。因此,包含语义和语法异常的语言材料对于揭示脑-模型对齐的机制具有特殊价值。
为了解决这些问题,由Anna Komissarenko领衔的研究团队在《Scientific Data》上发表了题为"SIGNAL数据集:语义和推断语法的神经语言分析"的研究论文,推出了一个独特的多模态数据集。该数据集包含600个经过严格控制的俄语句子,涵盖四种一致性条件(正常、语义异常、语法异常、语义-语法双重异常),并配有21名参与者的64通道高密度脑电图(EEG)记录。
研究方法主要包括三个关键环节:首先通过在线行为实验验证语言材料的有效性,确保母语者能够准确识别句子的异常类型;随后进行EEG实验,记录参与者阅读句子时的神经活动;最后通过LLM探测实验,分析模型对不同异常类型的敏感度。
研究团队基于RuSentEval数据集,筛选出2610个俄语句子,并将其简化为三种句法结构:主谓宾(SVO)、主谓形宾(SVAO)和主谓宾属(SVOG)。通过ruBERT模型生成三种异常变体,并使用在线众包平台进行验证,最终获得600个句子(150组,每组包含正常句和三种异常句)。
21名俄语母语者参与实验,他们阅读屏幕上逐词呈现的句子,同时记录64通道EEG数据。实验采用随机顺序呈现刺激,并通过控制问题确保参与者注意力集中。EEG数据经过预处理后,进行事件相关电位(ERP)分析和源定位。
研究使用ruBERT模型,通过逻辑回归分析模型各层激活对句子异常类型的区分能力,验证数据集在人工神经网络中的有效性。
行为实验结果表明,参与者能够准确识别句子的异常类型,所有入选句子的标注一致率达到75%以上,证实了语言材料在行为水平上的有效性。
ERP分析揭示了显著的神经生理学差异。所有条件在刺激后300毫秒左右均诱发负向偏转,在400毫秒达到峰值,这与经典的N400成分相对应,通常与语义违反处理相关。
语义异常和语义-语法双重异常条件引发的N400波幅显著大于正常条件和语法异常条件,表明语义信息在早期语言加工中的重要性。此外,所有条件在600毫秒左右均观察到正向偏转,可能与P600成分相关,该成分通常与句法违反处理有关。
差异波分析显示,语义和语义-语法异常条件与正常条件之间的ERP差异最大,主要出现在刺激后400-600毫秒的时间窗口。地形图分析表明,这些差异主要集中在中央皮层区域以及右侧额叶和颞叶区域,与经典语言处理脑区(布洛卡区和韦尼克区)对侧。
统计检验结果显示,所有条件对之间均存在显著差异,最明显的差异出现在刺激后400-600毫秒。源定位分析进一步揭示了不同异常类型处理涉及的脑区网络。
为排除重复呈现对神经反应的潜在影响,研究团队通过奇异值分解(SVD)分析连续呈现的相似句子组的ERP响应。结果显示,句子组内连续呈现的ERP投影高度相关,表明实验设计有效控制了启动效应。
动态统计参数映射(dSPM)源定位显示,不同异常类型处理涉及 distinct 的脑网络:
- ?正常vs语义异常:差异峰值出现在453毫秒,主要位于左颞上回
- ?正常vs语法异常:差异峰值出现在436毫秒,涉及左颞叶后部以及额中回和额上回
- ?正常vs语义-语法异常:差异峰值出现在538毫秒,涉及左额叶和颞叶皮层区域
这些发现与已知的语言处理脑网络一致,证实了刺激材料在神经生理学水平上的有效性。
LLM实验结果显示,模型中间层到高层的激活最能区分句子的异常类型。与EEG结果类似,语义异常句子比语法异常句子更容易被检测,而语义-语法双重异常句子与正常句子的区分度最高。
在更大规模的原始数据集上的验证实验支持了这些发现,确认了数据集在LLM探测中的有效性。
SIGNAL数据集的建立标志着脑-模型对齐研究迈出了重要一步。该研究通过精心设计的实验范式,创造了首个包含语义和语法异常处理的高质量神经语言学数据集。其创新性体现在三个方面:首先,数据集首次系统控制了关键语言特性,包括句法结构、词频和词长,为对比研究提供了可靠基础;其次,采用高密度EEG记录,为时空动态分析提供了丰富信息;最后,聚焦俄语这一融合性语言,为研究形态句法复杂性对语言处理的影响提供了独特视角。
研究结果证实,语义和语义-语法异常在人类大脑和LLMs中均引发最显著的反应差异,这支持了预测编码理论在语言处理中的适用性。同时,脑区激活模式表明,异常语言处理涉及分布式的额颞叶网络,这与当前对语言神经基础的理解一致。
该数据集的发布将促进多个研究方向的发展:通过表征相似性分析(RSA)可以直接比较皮层活动与语言模型表征;高时空分辨率的EEG数据使研究者能够追踪预测错误的动态过程,并将其与语言模型中的过程进行匹配;对俄语等融合性语言的研究有助于揭示语言类型学因素在脑-模型对齐中的作用。
未来,这一资源有望帮助解析语言模型有效预测大脑反应的原因,设计新的架构和训练策略以更好地对齐人工系统与人类认知,并揭示哪些语言方面在观察到的脑-模型相似性中占主导地位。随着脑-模型对齐研究的深入,SIGNAL数据集将为开发更接近人脑处理机制的人工智能系统提供重要基础,同时深化我们对语言神经机制的理解。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号