
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双分支生成对抗网络与自监督增强的鲁棒听觉注意解码模型研究
【字体: 大 中 小 】 时间:2025年06月05日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对脑电图(EEG)信号跨被试/会话的变异性、标记数据稀缺及短决策窗口性能下降三大挑战,研究人员提出DBGAN框架。该模型通过双分支时空特征提取、域特异性GAN数据增强及多任务自监督学习,在0.1秒超短窗口下实现88.9%准确率,跨数据集精度达76.5%,为助听器与脑机接口提供突破性解决方案。
在嘈杂的咖啡厅里专注听朋友讲话时,人类大脑如何过滤背景噪音?这个被称为"鸡尾酒会效应"的认知现象,正是听觉注意解码(AAD)研究的核心。随着脑机接口(BCI)和智能助听器的发展,通过脑电图(EEG)实时检测听觉注意力成为可能,但现有技术面临三重困境:不同人脑信号差异如同指纹般独特(跨被试变异性),同一个人不同时段记录的数据也存在波动(跨会话变异性);标注EEG数据获取成本高昂;更棘手的是,实用场景要求模型在0.5秒内做出判断,而传统方法在短时窗下准确率骤降20%。这些瓶颈严重制约着相关技术的临床应用。
上海自然科学基金资助的研究团队在《Engineering Applications of Artificial Intelligence》发表突破性成果。研究者创新性地提出DBGAN框架,该模型在两项EEG数据集(16人荷兰语叙事/18人丹麦语有声书)测试中,仅用0.1秒数据就实现88.9%的惊人准确率,在完全陌生数据集上保持76.5%精度,甚至在0dB信噪比恶劣环境下仍维持76.3%性能。这些指标显著超越当前最优方法,为实时听觉辅助设备奠定技术基础。
关键技术包括:1)双分支架构分别处理时域注意力特征和频域残差学习;2)设计时/频域特异性生成对抗网络(GAN)进行数据增强;3)集成图卷积网络(GCN)捕捉电极空间关系;4)多任务自监督策略(时序预测/频带重建等)挖掘未标注数据价值。实验使用公开数据集,经标准预处理(0.5-40Hz带通滤波,ICA去噪)确保可比性。
方法学创新
研究团队构建的DBGAN包含四大核心模块:时域分支采用注意力机制捕捉毫秒级神经响应变化;频域分支通过残差学习解析γ/θ等节律波;双GAN分别生成符合生物电特性的时/频域伪样本;图卷积层建模电极拓扑关系。这种"分而治之"策略有效解决了EEG信号的非平稳特性。
实验结果
在0.1秒窗口测试中,DBGAN以88.9%准确率碾压传统CNN(72.1%)和LSTM(68.4%)。值得注意的是,模型仅含0.91MB参数,单次推理耗时2.4毫秒,满足实时性要求。消融实验显示,移除自监督组件会使跨数据集性能下降9.2%,证实其泛化增强作用。噪声鲁棒性测试中,模型在-5dB信噪比时仍保持70%以上精度,显著优于对照组的52%。
讨论与展望
该研究首次实现亚秒级高精度听觉注意解码,其成功源于对神经信号本质的深刻理解:时域分支对应听觉诱发电位(AEP)的瞬态响应,频域分支捕捉神经振荡的持续调制。值得注意的是,模型在丹麦语数据集上的表现暗示其可能突破语言特异性限制。未来工作可探索多模态融合(如fNIRS)进一步提升性能。
结论
这项研究标志着EEG信号处理的重要突破,DBGAN框架通过:1)双模态特征解耦;2)生物启发的数据增强;3)自监督知识蒸馏,成功克服了AAD领域的核心挑战。其微型化架构(<1MB)和毫秒级响应特性,为下一代认知助听器和沉浸式脑机接口开辟了新途径。
生物通微信公众号
知名企业招聘