编辑推荐:
目前 EEG 数据集缺乏针对中文的自然阅读数据,限制了中文语义解码和自然语言处理研究。研究人员构建了中文自然阅读 EEG 数据集 TMNRED。该数据集提供了研究中文语义和开发 NLP 模型的生理数据,对认知神经科学研究意义重大。
在神奇的大脑探索之旅中,语言的语义理解一直是科学家们极为关注的神秘领域。大脑处理语言信息的机制复杂又微妙,就像一座隐藏着无数宝藏的迷宫,吸引着研究者们不断探索。脑电图(EEG)作为研究大脑活动的重要工具,能记录大脑在受到语言刺激时的电活动变化,帮助我们窥探大脑处理语义信息的奥秘。然而,目前 EEG 数据集虽多,但专门针对中文自然阅读的数据却十分匮乏。现有的相关数据集大多基于英文语料库,由于中文和英文在结构、语义、句法等方面存在显著差异,这些数据集无法满足对中文语义解码和自然语言处理(NLP)的研究需求。比如中文作为表意文字系统,一字多义、同音异形字现象普遍,句法结构独特,使得中文模糊语义目标识别更具挑战性,大脑处理中文的机制也与英文大不相同 。因此,构建一个中文自然阅读 EEG 数据集迫在眉睫,这对于深入了解大脑处理中文的机制、推动中文 NLP 技术发展至关重要。
天津大学的研究人员勇挑重担,开展了构建中文自然阅读 EEG 数据集的研究。他们成功创建了 TMNRED 数据集,为该领域研究带来了新的曙光。这一数据集意义非凡,它为研究中文语义和开发更精确的中文 NLP 模型提供了宝贵的生理数据,在认知神经科学研究中具有广阔的应用前景。相关研究成果发表在《Scientific Data》上,引起了学界的广泛关注。
为了构建 TMNRED 数据集,研究人员采用了多种关键技术方法。在样本选择上,招募了 30 名 18 - 30 岁的健康右利手中文母语者。实验材料精心设计,包括 15 - 20 字的新闻标题或短句,分为目标语义材料(涵盖名字、交通工具、动物、水果四类语义)和非目标语义材料。EEG 数据收集在电屏蔽室内进行,使用便携式 32 通道 EEG 系统采集数据。实验设计方面,运用 Psychtoolbox - 3 在 Matlab 上设计刺激协议,控制句子字数、呈现时间等参数,并对数据进行严格的预处理和多方面的分析。
研究结果如下:
- EEG 数据预处理:通过去除无关通道、截断任务无关时段、基于标准评估数据质量、重新参考、滤波、下采样和独立成分分析(ICA)等一系列处理,有效提高了 EEG 数据的信噪比,确保数据质量。数据质量评估指标显示,如通道功率谱、单试次数据段的中值方差等符合标准,且信号一致性高,平均组内相关系数(ICC)达 0.87(p<0.001) ,信噪比(SNR)均超 20 dB,表明数据质量优良。
- 经典传感器级 EEG 分析:运用标准化时间窗口方法处理数据,将阅读过程划分为四个时间窗口进行分析。对 Cz、Oz、C3、Pz 等主要电极的时间 - 电压分析发现,不同脑区在视觉语义文本目标识别过程中反应各异。例如,Oz 电极在视觉处理初期对目标词识别敏感,而 Cz、C3、Pz 电极在语义处理和整合后期发挥作用。同时,在传统事件相关电位(ERP)期间(0 - 500 ms),有明显的 P1 - N1 - P2 成分,反映大脑对视觉信息的感知;500 ms 后,不同刺激类型诱发的 EEG 反应振幅差异显著,体现对不同刺激内容的认知加工。
- 信号 - 噪声比(SNR)分析:计算各电极的 SNR,结果显示所有电极的 SNR 均超 20 dB,均值为 24.3 ± 2.1 dB。其中,中央电极如 Cz、C3、C4 的 SNR 最高,枕叶电极如 Oz、O1、O2 因靠近眼肌,受肌电(EMG)伪影影响,SNR 略低,进一步证明数据质量良好。
- 测试 - 重测可靠性分析:通过计算 ICC 和皮尔逊相关系数(r)评估数据稳定性。结果表明,实验数据在不同认知阶段,目标和非目标条件下的 ICC 分布虽有变化,但整体稳定性高。例如,早期目标条件下平均 ICC 较高,中期目标 ICC 保持稳定,后期虽下降但仍显著高于非目标条件,且皮尔逊相关系数r=0.85(p<0.001),验证了数据的稳定性。
- EEG 频域特征分析基于 PSD 估计:计算功率谱密度(PSD)分析 EEG 频域特征,发现 delta、alpha 和 beta 频段中,两种刺激类型诱导的相对功率可作为区分不同刺激类型的候选特征。在刺激过程中,这些频段的功率谱密度呈现先增后减再增的趋势,不同阶段对应不同的大脑区域激活,反映了大脑在不同时间对目标和非目标刺激的处理过程。
研究结论表明,TMNRED 数据集为研究中文语义处理和 NLP 提供了丰富的生理数据,其高质量和多功能性使其成为未来认知神经科学研究的宝贵资源。不同脑区在模糊语义处理的不同阶段发挥独特作用,从视觉处理初期到语义整合和语境确认,各个脑区相互协作。研究还发现 EEG 信号在时域和频域的特征变化能有效反映大脑对不同刺激的认知加工过程。
在讨论部分,研究人员指出,尽管研究取得了重要成果,但自然阅读过程复杂,本研究的时间窗口划分可能无法完全涵盖语义处理的动态特性。未来研究可结合眼动追踪技术,更精确地分析模糊语义处理,进一步揭示大脑处理中文语言信息的机制,推动中文 NLP 技术发展,为脑机接口技术改进、语言学习工具优化等实际应用提供更坚实的理论基础和数据支持,让我们在探索大脑语言奥秘的道路上不断前行。