ChineseEEG-2:面向多模态语义对齐与神经解码的阅读-聆听跨模态脑电数据集

《Scientific Data》:An EEG Dataset for Multimodal Semantic Alignment and Neural Decoding during Reading and Listening

【字体: 时间:2025年12月25日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对非英语语言神经解码数据集稀缺的瓶颈,开发了首个大规模中文多模态脑电数据集ChineseEEG-2。研究人员通过高密度EEG记录系统,采集了4名受试者10.8小时朗读任务和8名受试者21.6小时聆听任务的脑电数据,实现了朗读-聆听跨模态的语义对齐。该数据集支持脑活动与大型语言模型(LLM)语义表征的映射,为新一代脑机接口(BCI)系统开发提供了重要资源,特别推动了中文语境下的神经语义解码研究。

  
当我们谈论"读心术"时,现代神经科学正在通过脑电信号解码语言思维的方向迈出实质性步伐。然而,这一领域长期面临着一个关键挑战:大多数脑语言解码研究都集中在英语等少数语言,而像中文这样拥有独特语言特征(如声调系统、字符表意)的非拼音文字体系却缺乏高质量的神经数据集。这种语言壁垒严重制约了脑机接口技术在全球化场景中的应用,也阻碍了我们理解不同语言在大脑中的加工机制差异。
更棘手的是,现有脑电数据集往往局限于单一模态——要么是默读,要么是听觉理解,缺乏跨模态的配对数据。这种碎片化现状使得研究人员难以构建能够泛化到不同感知通道(如从阅读到听说)的通用神经解码模型。随着多模态大语言模型(MLLM)的快速发展,迫切需要能够支撑脑活动与模型语义空间对齐的大规模基准数据,特别是在非英语语境下。
针对这一研究空白,由南方科技大学刘泉影团队与澳门大学吴海燕团队联合开展的研究在《Scientific Data》上发布了ChineseEEG-2数据集。这项研究建立在团队此前开发的ChineseEEG数据集(专注于默读任务)基础上,新增了朗读(RA)和被动聆听(PL)两种主动模态,使用相同的中文语料库构建了跨模态对齐的脑电基准数据。
研究团队招募了12名健康受试者,其中4名参与朗读任务,8名参与聆听任务。实验材料选自《小王子》中文版和沈石溪《狼王梦》的节选,共计46,591个汉字。朗读任务中,受试者以每字符0.25秒的速度朗读高亮文本,同时记录128通道脑电信号和高保真音频。这些录音随后作为听觉刺激材料播放给聆听组受试者,从而实现了相同语义内容在朗读和聆听模态下的精确时间对齐。
关键技术方法包括:使用128通道HydroCel Geodesic Sensor Net采集脑电信号;通过MNE-Python实现数据预处理流程(包括降采样至250Hz、1-40Hz带通滤波、独立成分分析去噪);采用Brain Imaging Data Structure(BIDS)标准组织数据;利用Wav2Vec2和Bert-base Chinese模型生成音频和文本嵌入;通过动态统计参数映射(dSPM)进行源定位分析;使用被试间相关性分析(ISC)验证数据质量。
数据质量验证
通过被试间相关性分析(ISC)验证了脑电信号对共享语言刺激的神经响应特异性。结果显示,所有频段(δ、θ、α、β)的真实ISC值均显著高于随机基线(单样本t检验,p<0.001),表明记录的脑电信号确实包含了与共享刺激相关的神经信息。朗读任务在额叶和颞叶区域观察到明显的激活,与语义阅读任务的功能需求一致;而聆听任务在颞叶和枕顶叶区域显示出显著的δ频段神经激活,符合叙事理解过程中听觉语言和视觉空间处理系统的参与特征。
源定位与跨模态分析
基于128通道脑电数据的源定位分析显示,朗读任务受试者在左颞中回附近出现更集中的激活,该区域与语言理解功能密切相关。聆听任务受试者的激活区域则更为分散,包括与语言理解相关的前颞叶和颞顶叶区域,以及与视觉处理相关的前额叶区域。这种差异可能反映了不同任务条件下认知资源分配的差异。
跨模态相关性分析发现,左颞上回和左颞中回这两个语言处理相关脑区在朗读和聆听任务组间表现出更强的跨任务相关性,显著高于语言区与初级感觉区(左距状沟周围皮层)之间的相关性(Steiger's Z检验,p<0.05)。这一结果证实了数据集对语言相关神经动态的敏感性。
研究结论与意义
ChineseEEG-2数据集的建立填补了非英语语言多模态神经解码资源的空白,为中文语境下的脑语言研究提供了重要基础设施。该数据集通过提供配对的大脑-语言数据、跨模态时间精度和语言级对齐,支持三个主要研究方向:跨模态神经解码,使模型能够泛化到不同的感知输入(如阅读)和输出(如说话)模态;脑到MLLM对齐,将语言音频模型学习的共享语义表征基础建立在真实神经数据上;中文语言解码的标准化基准测试,支持在非英语环境下对解码模型、融合策略和跨模态训练方法进行公平比较。
这一资源特别有助于研究中文特有的神经动力学,如听觉皮层的声调处理和阅读过程中的字符级语义激活。随着LLM驱动的脑机接口范式(如实例级跨模态映射、序列解码和多模态融合)的快速发展,ChineseEEG-2为缩小人脑表征与计算语义模型之间的差距提供了新的可能性,推动了下一代脑机接口系统的演进。
该数据集已按照EEG-BIDS标准在Science Data Bank公开共享,相关代码在GitHub开源,为全球研究者开展中文脑语言解码研究提供了标准化基准和可重复性保障。通过其丰富的多模态结构和匹配的语言刺激,ChineseEEG-2为实现从脑活动中进行人类级语言解码的更大目标贡献了一个可扩展且文化多样化的资源。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号