
-
生物通官微
陪你抓住生命科技
跳动的脉搏
开放获取EEG数据集助力语音解码研究:探索发音与协同发音在脑机接口中的关键作用
【字体: 大 中 小 】 时间:2025年06月18日 来源:Scientific Data 5.8
编辑推荐:
本研究针对脑机接口(BCI)中自然语音解码的挑战,通过开发开放获取的EEG数据集,系统考察了发音特征(如发音部位、方式、清浊音)和协同发音对语音分类的影响。研究团队采用经颅磁刺激(TMS)增强EEG信号,构建了包含单音素、音素对和真实/伪单词的两组数据集(N=8和N=16),为建立跨会话的可靠解码模型提供了基准。该成果发表于《Scientific Data》,通过延迟微分分析(DDA)验证了神经信号的可解码性,为开发基于发音特征的BCI语音系统奠定基础。
在脑机接口(BCI)技术快速发展的今天,如何实现自然流畅的语音解码仍是重大挑战。虽然侵入式的皮层脑电图(ECoG)能提供高信噪比的神经信号,但其临床应用受限于手术风险。非侵入性脑电图(EEG)虽安全便捷,却因颅骨对神经信号的衰减作用,目前主要局限于诱发电位检测,导致解码速度慢、灵活性差。更关键的是,现有EEG数据集多采用孤立的语音刺激,缺乏对自然语音中普遍存在的协同发音(coarticulation)现象的系统考察,这严重制约了BCI设备在真实场景中的应用潜力。
针对这一技术瓶颈,由美国加州大学洛杉矶分校(UCLA)领衔的国际团队在《Scientific Data》发表了开创性研究。研究人员设计了两阶段实验(2019年N=8,2021年N=16),通过64导联EEG记录被试在听觉感知和发音任务中的神经活动。研究创新性地结合经颅磁刺激(TMS)技术,靶向调控与唇舌运动相关的初级运动皮层区域(LipM1/TongueM1),同时采用发音语言学框架系统构建刺激材料——包含6个辅音(/b/,/p/,/d/,/t/,/s/,/z/)和5个元音(/i/,/ε/,/a/,/u/,/o/)的单音素、40对CV/VC组合以及20个真实/伪单词,全面覆盖发音部位(双唇/齿龈)、发音方式(塞音/擦音)和清浊音特征。
关键技术方法包括:(1)采用eego sports 64导EEG系统以2000Hz采样率记录信号,配合Visor2神经导航系统实现TMS精准定位;(2)设计双脉冲TMS范式(间隔50ms,强度110%静息运动阈值)调控特定皮层区域;(3)通过独立成分分析(ICA)和延迟微分分析(DDA)两种互补方法验证数据质量;(4)构建标准化预处理流程,数据以BIDS格式开放共享。
数据特征与分类维度
研究构建了多层级解码框架:单音素可按发音特征分类;音素对可分析TMS靶点效应;音素三联体(CVC)可考察真实/伪单词的神经表征差异。如图3所示,

神经信号验证
通过事件相关电位(ERP)分析发现,控制条件下听觉刺激诱发了典型的N100-P200波形,而TMS条件在刺激后25-125ms出现兴奋性活动特征(图8)。

讨论与展望
该研究首次将发音语言学理论与神经调控技术相结合,解决了自然语音解码中的三个关键问题:(1)通过系统设计的音素环境,量化了协同发音对解码准确率的影响;(2)证实TMS可选择性增强特定发音特征的神经表征;(3)提供跨数据集验证框架,缓解机器学习模型过拟合问题。尽管存在运动与语言网络信号重叠的局限,但开放共享的EEG数据为开发新一代基于发音特征的BCI系统奠定了基础。未来研究可探索实时TMS-EEG闭环系统,或将发音特征解码与语义网络分析相结合,推动BCI技术向自然对话解码迈进。
生物通微信公众号
知名企业招聘