《Biomedical Signal Processing and Control》:BAFTCNet: A model for motor imagery decoding based on EEG principles and attention mechanisms
编辑推荐:
本研究提出BAFTCNet模型,通过脑分区特征提取、多频率决策融合及局部时空注意力机制优化EEG信号分类。在BCI Competition IV-2a和High-Gamma数据集上,单受试者分类准确率达83.30%和94.66%,跨受试者74.20%,并通过t-SNE和混淆矩阵验证模型可解释性,同时分析计算效率。
陈志成|曹迪国|梁光金|于浩阳|赵彦龙
曲阜师范学院,中国山东省日照市烟台北路80号,273165
摘要
非侵入式的运动意图识别在康复医学等领域非常重要。然而,现有的方法在从脑电图(EEG)信号中提取运动想象(MI)信息方面存在不足,导致模型性能不佳。为了解决这个问题,本研究提出了一种脑区划分方法,该方法根据不同脑区在特定功能中的参与程度来划分区域,并设计了针对每个区域内特征分布特点的特征提取模块。目前,提出了一种基于滑动窗口的局部时空注意力机制(LSTAM)来关注EEG信号的局部变化,以及一个多频率融合(MFF)模块来整合来自不同频率带的决策级信息。在BCI Competition IV-2a和High-Gamma数据集上的受试者特定实验中,所提出模型的分类准确率分别为83.30%和94.66%;在BCI Competition IV-2a数据集上的跨受试者实验中,准确率为74.20%。通过t分布随机邻居嵌入(t-SNE)和混淆矩阵分析验证了模型的可解释性,并通过浮点运算次数(FLOPs)和参数数量比较确定了其在实践中的应用潜力。实验结果表明,所提出的模型能够有效分类MI信号,为高效的网络设计提供了新的见解。
https://github.com/baftcnet/BAFTCNet引言
脑机接口(BCI)是一种通过解读大脑活动来控制外部设备的技术。BCI已在包括医疗康复、疾病管理和生活质量改善在内的多个领域得到成功应用[1]、[2]。尽管在BCI领域解读MI信号至关重要,但实际上仍受到解码性能和泛化能力的限制。EEG数据采集经常受到各种噪声源(例如生物伪迹、电子设备干扰和环境噪声)的干扰。此外,通道间的相关性、受试者间的差异以及EEG信号的高维特性使得其分析和分类成为具有挑战性的任务。为了解决与MI-EEG任务分类相关的挑战,研究人员提出了多种深度学习(DL)方法。
Lawhern等人[3]提出了EENet,这是一种利用可分离深度卷积的新型卷积神经网络(CNN),在训练参数数量较少的情况下取得了优异的性能。Zhao等人[4]设计了一种新的3D EEG表示方法和多分支3D CNN,以充分利用输入EEG信号各个维度中的特征。同样,Inception架构[5]是一种用于高效提取多尺度信息的紧凑并行结构。Incep-EEGNet[6]使用基于Inception的架构来解码原始EEG信号。EEGSym[7]通过整合Inception模块和残差连接,在不同受试者中实现了MI分类性能的提升。EISATC-Fusion[8]引入了一种多尺度方法,通过加入残差模块增加了可用特征的多样性。Ingolfsson等人[9]提出了EETCNet模型,成功将TCN应用于MI领域并取得了显著成果。然而,这些研究主要采用整体方法处理EEG通道,这种策略往往忽略了不同脑区的功能特异性,因此无法充分提取特定区域的信号特征。
注意力机制模仿了人类大脑选择性关注特定元素而忽略其他元素的能力。Lu等人提出了一种具有乘法评分函数的注意力层,称为乘法注意力。在计算机视觉领域,提出了多种注意力模块,包括挤压-激发(SE)[10]、卷积块注意力(CBAM)[11]和高效通道注意力(ECA)[12]。2017年,Vaswani等人[13]提出了基于乘法注意力的Transformer模型,该模型由多个自注意力层组成,展示了注意力机制在解码任务中的巨大潜力。
在MI领域,提出了许多基于自注意力的DL模型用于分类MI-EEG信号[14]、[15]、[16]。Song等人结合EENet和Transformer,引入了EE Conformer,将Transformer集成到MI-EEG信号分类任务中。Zhao等人使用Transformer结合多尺度方法解码MI任务,而Zhao等人使用滑动窗口和自注意力机制来关注EEG中包含的与类别相关的信息。这些进展主要集中在提高EEG信号中长距离依赖性的捕获能力上,而忽视了中等范围信号变化的重要性。
为了解决这些问题,我们提出了一种新的卷积神经网络。首先,输入数据经过卷积过滤,然后通过区域特征提取模块提取区域特征。其次,频率-幅度学习模块进一步提取频率、局部时空和幅度特征。接着,使用时间卷积网络(TCN)提取更深层次的时间特征。最后,多频率决策融合(MFF)模块对频率-幅度学习模块和TCN的输出进行决策级融合,生成最终的分类结果。本文的贡献如下:
1. 根据EEG信号的特点,设计了一个功能区域特征提取模块。通过针对性的消融实验,定量确认了不同脑功能区域对运动想象任务的贡献差异。
2. 提出了MFF策略,将来自不同频率带的EEG信息整合到最终决策过程中。此外,通过引入不同频率的决策信息,深入分析和讨论了不同频率的决策信息对不同受试者分类结果的影响。
3. 通过结合滑动窗口和传统注意力机制,设计了LSTAM来捕捉局部EEG特征的动态变化。通过比较实验,定量比较了LSTAM单独使用时的性能与其他主流注意力机制(如自注意力和通道注意力)的性能,进一步揭示了该模块在EEG解码任务中的应用潜力。
4. 通过结合t-SNE可视化(直观展示特征聚类效果)和混淆矩阵(量化类别区分能力),通过两种方法(特征表达和分类结果)系统地验证了模型的可解释性。
数据集
为了评估测试模型的性能,选择了BCI Competition IV-2a数据集[17]和High Gamma数据集[18]。这两个MI数据集因其庞大的数据量和合理的实验设计而在EEG领域被广泛用于模型验证。
BCI-2a数据集专门用于BCI竞赛IV,包含22个与MI相关的电极,以及四种不同MI类别(左手、右手、脚和舌头)的EEG信号。
脑区划分
除了对脑区的整体划分外,还根据大脑皮层上电极的具体功能将其进一步划分为两个主要的功能区域:体感区(SA)和运动区(MA)。根据[20],额叶和中央前回主要与运动控制相关,而顶叶和中央后回与体感功能密切相关。因此,为了确保功能的完整性
模型
BAFTCNet的模型架构如图3所示。该模型包括四个不同的模块。模块1是区域特征提取模块,专门用于从EEG信号中提取不同脑区的特征。模块2是频率-幅度学习模块,用于学习这些不同区域的频率和幅度特征。模块3是时间卷积网络,用于从信号中提取深度时间特征。
实验细节介绍
该模型通过PyTorch[25] DL框架构建,使用24GB Nvidia RTX 3090 GPU进行训练,优化器采用自适应矩估计(Adam)[26],损失函数为交叉熵损失函数。优化器的学习率为0.001,权重衰减率为0.001。选择交叉熵函数作为损失函数,损失公式如下:
其中 表示总损失,N表示样本数量,C表示消融实验
在本节中,我们通过消融分析评估BAFTCNet模型中每个模块的有效性。表8展示了从BAFTCNet模型中移除一个或多个模块对运动想象(MI)分类性能和模型复杂性的影响。这些模块在训练前被移除,并适当调整了与训练相关的超参数以确保模型训练的有效性。
结果表明,这些模块可以改进
总结
在本文中,我们提出了一种高效的运动想象解码模型,并基于EEG信号的原则设计了三个新颖的模块:一个基于脑区功能差异的特征提取模块、一个关注中等范围局部特征变化的局部时空注意力机制,以及一个多频率决策融合模块。通过消融实验,我们确认了这些模块的有效性,为进一步的研究提供了见解。
CRediT作者贡献声明
陈志成:撰写——原始草稿、可视化、验证、软件、方法论、调查、形式分析、概念化。曹迪国:撰写——审阅与编辑、监督、资源获取。梁光金:撰写——审阅与编辑、方法论。于浩阳:撰写——审阅与编辑。赵彦龙:撰写——审阅与编辑、方法论。
写作过程中生成式AI和AI辅助技术的声明
在准备本工作时,作者使用了aistudio进行语法修改。使用该工具/服务后,作者根据需要审查和编辑了内容,并对出版物的内容负全责。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文所述的工作。
致谢
本工作得到了山东省自然科学基金(ZR2022MF236)和国家自然科学基金(62473228)的部分支持。