
-
生物通官微
陪你抓住生命科技
跳动的脉搏
TFANet:一种用于运动想象解码的时间融合注意力神经网络及其在脑机接口中的应用
【字体: 大 中 小 】 时间:2025年09月23日 来源:Frontiers in Neuroscience 3.2
编辑推荐:
本综述提出TFANet(时间融合注意力神经网络),通过多尺度时间自注意力(MSTSA)机制和通道注意力(SE)模块,有效捕捉脑电图(EEG)信号的局部与全局时间依赖性,显著提升运动想象(MI)解码性能。该模型在BCIC-IV-2a和BCIC-IV-2b数据集上分别达到84.92%和88.41%的受试内分类准确率,并通过迁移学习实现77.2%的跨受试准确率,为脑机接口(BCI)系统提供了高效、可靠的解码新方案。
引言
在脑机接口(BCI)领域,运动想象(MI)分类是一项至关重要的任务,其主要目标是从脑电图(EEG)信号中解码个体的MI意图。然而,MI解码面临重大挑战,主要源于EEG信号固有的复杂时间依赖性。传统机器学习方法通常包括特征提取和分类器设计两个阶段,常用的特征提取方法包括小波变换(WT)、主成分分析(PCA)和共同空间模式(CSP)及其变体,如正则化共同空间模式(RCSP)和滤波器组共同空间模式(FBCSP)。分类算法则包括k近邻(KNN)、支持向量机(SVM)、线性判别分析(LDA)和朴素贝叶斯(NB)分类器。尽管这些方法在MI-EEG解码中表现良好,但大多数仍严重依赖手工特征。
随着计算机科学的不断进步,深度学习(DL)在解码算法开发中的应用日益增多,其中卷积神经网络(CNN)最为流行。然而,其固定的感受野限制了其在时间序列数据上的性能,难以有效捕捉长时间的时间依赖性。为应对这一问题,提出了基于CNN的时间卷积网络(TCN),专注于时间序列建模和分类。相比之下,循环神经网络(RNN)更容易出现梯度消失或爆炸等问题。与基于RNN的方法(如门控循环单元(GRU)和长短期记忆(LSTM))相比,TCN在时间序列任务中表现出更优的性能。ETCNet结合了高效通道注意力(ECA)和TCN组件,以提取通道特征和时间信息。EEG-TCNet将EEGNet与TCN结合,能够更有效地处理和分析时间序列数据。TCNet-Fusion在EEG-TCNet的基础上增加了层融合,减少了特征损失,并构建了丰富的特征映射。
近年来,研究人员发现将注意力机制整合到深度学习模型中具有意想不到的优势。注意力机制模拟人类选择性信息聚焦的过程,使模型能够集中关注重要元素,同时忽略无关内容。这些机制模仿人类的感知模式和注意力行为,使神经网络能够区分关键信息和次要数据。多头注意力机制(MHA)使得能够并行处理各种全局时间特征。在此背景下,ATCNet使用MHA来突出EEG时间序列信号中的关键信息。Conformer在CNN提取的局部时间特征之上,使用MHA模块捕捉全局长期依赖性。TMSA-Net将双尺度CNN与MHA模块中的注意力机制集成,有效捕捉全局依赖性。MSCFormer结合多分支CNN和MHA模块,以应对EEG信号中的个体变异性。这些方法动态地为输入序列中与任务相关的时间段分配更高的权重,从而突出区分性EEG模式。然而,现有的注意力机制通常专注于单一时间尺度的依赖性,而EEG信号在时间域中表现出多尺度的依赖性。现有模型难以同时捕捉长短期、多尺度的时间依赖性。
基于上述挑战,本文提出了一种创新的端到端深度学习架构。该网络能够准确建模EEG信号的时间依赖性,从而提升解码性能。首先,通过卷积提取低级特征;其次,使用注意力模块更有效地提取和融合特征,突出时间序列中最重要的部分;最后,通过改进的TCN提取高级时间特征。
材料与方法
数据集
本研究使用了MI分类领域两个最广泛使用的公共数据集进行评估:BCI Competition IV 2a和BCI Competition IV 2b。
BCIC-IV-2a数据集记录了9名受试者执行四类MI任务(左手、右手、双脚和舌头)的EEG信号,数据从22个通道以250 Hz的采样率采集。每名受试者在不同日期记录了两次独立会话:第一次会话的数据用于模型训练,第二次会话的数据保留用于模型测试。每次会话包含288次试验,每类MI任务72次试验。在本实验中,视觉提示的开始作为时间锚点(t = 0)。从视觉提示开始后的(0,4)秒窗口内提取EEG段样本(对应于试验开始后2–6秒的绝对时间窗口,因为在BCIC-IV-2a数据集中,提示在试验开始后2秒出现),产生4秒的数据。在250 Hz的采样率下,每个样本产生1000个时间点。
BCIC-IV-2b数据集记录了9名受试者执行二类MI任务(左手和右手)的EEG信号,使用三个电极通道(C3、Cz、C4),采样率为250 Hz。每名受试者完成了五次记录会话,前两次会话各包含120次无反馈试验,随后的三次会话各包含160次在线反馈试验。出于实验目的,前三次会话(总计400次试验)用于训练,而剩余两次会话(总计320次试验)作为测试集。在本实验中,视觉提示的开始作为时间锚点(t = 0)。从视觉提示开始后的(0,4)秒窗口内提取EEG段样本(对应于试验开始后3–7秒的绝对时间窗口,因为在BCIC-IV-2b数据集中,提示在试验开始后3秒出现),产生4秒的数据。在250 Hz的采样率下,每个样本产生1000个时间点。
输入表示与预处理
本研究中使用的EEG信号以原始分发形式从公开可用的BCIC-IV-2a和BCIC-IV-2b数据集中获得。这些数据集在发布前由提供者使用标准技术进行了预处理,包括:带通滤波器(0.5–100 Hz)以去除极低频和高频伪影,以及50 Hz陷波滤波器以消除电源线干扰。
数据增强
为了解决EEG试验数量有限的问题并缓解类别不平衡,本文提出了一种基于时间序列的时间分段和重组的数据增强方法。该技术将每个多通道EEG试验划分为8个非重叠的时间段(段长度=步长=125个时间点),同时保留原始通道分组以维持空间相关性。在相同类别的段随机重组过程中,这些段被连接以生成新样本。此过程保留了类别特定特征的一致性,同时引入了数据多样性。这种增强仅应用于训练集,而测试数据严格未增强。关键的是,测试数据与增强的训练集完全隔离。该方法在时间序列数据集上表现良好,有效提高了模型在类别样本稀缺或数据分布不平衡场景下的泛化能力。
提出的TFANet架构
TFANet的框架包括卷积块、MSTSA模块、SE模块和时间深度可分离卷积融合网络(TDSCFN)模块。
首先,增强后的EEG信号通过包含时间和空间滤波器的卷积块处理,以提取初步的时间特征。此步骤通过局部卷积操作捕获信号中的时空信息,为后续的时间建模奠定基础。MSTSA模块使模型能够在不同时间尺度上应用注意力加权,使其能够同时关注局部和全局特征。随后添加通道压缩模块以降低计算复杂性和参数大小,同时进一步处理和优化特征。SE模块进一步增强了特征选择性,帮助模型在全局上下文中关注关键时刻。接着,引入TDSCFN使模型能够处理高级时间特征。分类过程的最后一步是将提取的特征传递到全连接(FC)层。
卷积块
卷积模块由一个时间滤波器和一个空间滤波器组成。最初,EEG信号由时间滤波器处理,该滤波器由一个二维卷积层和一个批归一化(BN)层构成。该组件通过应用卷积核(F1 = 16),其核尺寸为(1, 32),来提取不同频带的时间特征。第二层采用通道卷积,使用深度卷积,具有F2个卷积核,尺寸为(C, 1),组数设置为F1,以学习每个频带特定的空间滤波器。变量C代表通道数,而F2表示卷积块输出特征的维度。F2的值计算为F2 = D × F1,其中D代表前一层与当前层之间的连接度,经验性地确定为2。随后,应用BN层和指数线性单元(ELU)激活函数,以增强模型的泛化能力和非线性表达能力。接着,通过应用核大小为(1, 8)的平均池化操作,有效减少了输入的时间维度。这不仅减少了参数数量,还提高了计算效率。还应用了Dropout正则化来防止过拟合。表1提供了构建卷积块的具体参数。
注意力模块
多尺度时间自注意力机制
在BCI-MI解码过程中,具有单一尺度的卷积神经网络存在感受野有限的问题,导致特征提取不足。这一限制阻碍了有效感知和捕捉EEG信号中的全局依赖性,从而限制了模型处理复杂和全局特征时的性能。为解决这一问题,本文设计的MSTSA有效捕捉了EEG信号在不同时间尺度上的关键特征,克服了CNN在建模时间信息方面的局限性,特别是EEG信号中个体间差异带来的挑战。通过自适应地关注不同尺度和时间段的重要信息,它克服了单尺度特征提取的缺点。
MSTSA模块由多尺度时间卷积和自注意力(SA)模块组成。多尺度时间卷积应用一组具有四个二维卷积层的时间滤波器,其核大小分别为(1, 15)、(1, 31)、(1, 51)和(1, 75),以提取局部时间信息。在图2中,与单一时间滤波器相比,多尺度时间卷积能够提取不同时间尺度的特征。时间滤波器集合的四组输出随后沿卷积特征通道轴进行拼接。然后,沿特征图维度应用BN和ELU激活函数,接着进行进一步的平均池化。构建多尺度卷积块的具体参数在表2中提供。
自注意力(SA)模块由两部分组成。第一部分是MHA,可以描述为:
Attention(Q, K, V) = softmax(QKT/√dk)V (1)
查询(Q)、键(K)和值(V)是由向量组成的矩阵,用于并行处理。参数dk代表每个头的维度。MHA通过多个独立的注意力头并行学习输入数据的不同特征。注意力过程可以表示为:
MHA(Q, K, V) = Concat(head1, …, headk)WO (2)
headi = Attention(QWiQ, KWiK, VWiV)
[PMHA = 4×d×(d+1) = 4×32×(32+1) = 4224]
其中headi是第i个头的输出,WiQ ∈ ?d×dq, WiK ∈ ?d×dk, WiV ∈ ?d×dv, WiO ∈ ?hdv×d, dq = dk = dv = d/h = 32/8 = 4。
第二层由线性变换组成,后跟GELU激活函数。此外,还引入了层归一化和残差连接。
通道注意力
由于执行不同运动想象任务时,对应不同身体部位的大脑功能区域各不相同,平等对待所有通道可能无法对与运动想象任务高度相关的通道给予更多关注。这可能会对空间特征提取的质量产生负面影响,最终导致分类性能不佳。在模型中,引入了SE模块以动态加权每个通道,增强重要特征的表示,并减少无关特征的干扰。该模型不仅增强了其在通道维度上的表达能力,还与其他时间序列模块协同工作,以利用它们的综合优势。首先,输入特征Xc ∈ ?F×C×T通过全局平均池化压缩成特征向量,其中F、C和T分别表示特征图、通道和采样点的数量。如下所示:
zc = 1/(C×T) ∑j=1C ∑j=1T Xc(i, j), c = 1,2,…,F (3)
随后,使用两个FC层来捕捉各种特征表示之间复杂的非线性依赖性。该过程可以表示为:
W = σ(W2δ(W1Z)) [PW = F/r × F + F × F/r = 4×16 + 16×4 = 128, r = 4] (4)
具体地,W代表权重,其中W1 ∈ ?F/r×F是初始FC层的权重矩阵,而W2 ∈ ?F×F/r是后续FC层的权重矩阵,将特征恢复至原始维度。ReLU和sigmoid激活函数分别由δ和σ表示。
此外,在MSTSA和SE之间执行1×1卷积,将输入特征通道维度从F2减少到F1。通道数量的这种调整有助于降低计算成本,控制模型大小,并促进进一步的特征提取和处理。通道模块的具体参数如表3所示。
时间深度可分离卷积融合网络
TDSCFN模型的设计类似于提出的TCN网络。如图3所示。为简化模块的参数数量,在第一个残差单元中使用了扩展因果深度可分离卷积,取代了原始的扩展因果卷积,同时保留了其解码性能。这一改进包括一层扩张因果深度卷积和一层逐点卷积。在第二个残差块中,TDSCFN模块中的融合块取代了TCN残差块,将原始的残差连接替换为多级残差连接,实现了多级特征融合,这丰富了特征信息,同时缓解了模型过拟合。
TDSCFN中使用的扩张卷积采用指数增长的扩张因子。具体地,对于第i个残差块,扩张因子定义为2i?1。扩张的指数级进展有效扩展了时间感受野,而计算复杂性没有成比例增加。其感受野大小(RFS)定义为
RFS = 1 + 2(Kt - 1)(2L - 1), (5)
其中Kt代表卷积核的大小,而L表示残差块的数量。在TFANet模型中,TDSCFN的输入数据时间点为15,L = 2。仅当RFS大于输入序列长度时,信息才会被省略。为此,我们为所有卷积层设置Kt = 4(RFS = 19 > 15)。TDSCFN模块的具体参数可在表4中找到。
性能指标
TFANet模型使用Python 3.10和PyTorch 2.1.0开发,并在具有24GB内存的NVIDIA GTX 4090 GPU上进行训练和评估。TFANet使用Adam优化器作为网络训练的优化策略,以交叉熵准则作为损失函数。报告的准确率/kappa分数反映了在保留测试集上的单次确定性运行性能。未使用交叉验证或重复试验进行平均。训练阶段以32的批次大小、随机种子0且无权重衰减进行。模型总共训练1000个周期,学习率为0.0005。
为全面评估模型的性能,本实验利用了两个关键评估指标:准确率和kappa分数。
分类准确率为评估模型的整体预测性能提供了直观的指标。准确率计算为:
Acc = (TP + TN)/(TP + TN + FP + FN) (6)
其中TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性的数量。此外,分类结果的准确性使用Kappa系数进行评估,该系数衡量了实际分类与预期分类之间的一致性程度。
kappa = (p0 - pe)/(1 - pe) (7)
其中p0代表平均准确率,pe代表预期一致性水平。
实验研究
受试内性能
为验证所提出方法的有效性和准确性,我们首先在BCIC-IV-2a和BCIC-IV-2b数据集上进行了受试内分类实验。我们的方法的性能与六种最先进的模型进行了比较,包括EEGNet、TSFCNet、MSCFormer、TCNet-Fusion、EEG-TCNet和Conformer。如表5和表7所示,所提出的方法在两个数据集上均表现出色,实现了最高的解码准确率和Kappa系数,同时保持了最低的标准差。
在表5中,TFANet的平均解码准确率分别比基于CNN的EEGNet-8,2和TSFCNet高出12.47%和2.2%。这些基于卷积神经网络的方法主要专注于在有限感受野内提取局部特征信息。然而,这可能忽略了捕捉时间序列内全局依赖性的关键重要性。该方法将SA机制整合到多尺度CNN框架中,有效捕捉局部和全局依赖性,从而显著提升解码性能。与基于MSA的Conformer和MSCFormer架构相比,所提出的方法在解码准确率上实现了显著提升,分别展示了6.26%和1.97%的增强。通过引入多尺度时间卷积,我们的方法能够捕捉多尺度特征,从而提升解码准确率,同时标准差降低了44.77%,表明我们的模型具有更强的个体适应性。与基于TCN的EEGTCNet相比,准确率提高了7.57%。与基于模型融合的TCNet-Fusion相比,准确率提高了1.19%,因为SE的嵌入增强了特征提取能力并改善了模型性能。
如表6所示,TFANet在EEGNet-8,2(t = 6.27, p = 0.0002, d = 2.09)和EEG-TCNet(t = 3.94, p = 0.004, d = 1.31)上展示了统计上显著的改进。尽管在TSFCNet、MSCFormer和TCNet-Fusion上表现优于1.19–2.20%,但这些差异在统计上不显著(p > 0.16)。值得注意的是,在Conformer上6.25%的优势接近显著性(p = 0.063),具有中等到大的效应大小(d = 0.72)。
如表7所示,所提出的方法保持了竞争优势,在二分类解码性能上优于其他方法,并在大多数受试者中取得了更好的结果。TFANet在二分类中的解码性能仍然优于基于CNN和MSA的模型,比最新的MSCFormer模型高出0.41%。
基于在BCIC-IV-2b上比较TFANet与基线方法的配对t检验结果(表8),TFANet在EEGNet上展示了统计上显著且实质性的优势,实现了平均+3.78%的改进(t = 3.161, p = 0.0134),具有大的效应大小(d = 1.053)。95% CI [1.023%, 6.546%] 稳健地证实了这一优势。尽管TFANet在TSFCNet(+2.02%)和Conformer(+3.78%)上表现出非显著的性能增益,并与MSCFormer(+0.41%)结果相当,但其在EEGNet上的显著改进突出了其在提升EEG解码准确率方面的关键优势。这一证据将TFANet定位为一个在特定基线模型比较中具有竞争优势的优越框架。
消融研究
为了研究MSTSA、SE和TDSCFN模块以及数据增强的效果,在TFANet模型上进行了消融实验。系统地移除了特定模块以分析它们对模型性能的影响。
如表9所示,MSTSA模块在TFANet的各种模块中展示了最显著的性能改进,当移除MSTSA模块时,模型的平均解码准确率下降了12.22%。SE和TDSCFN模块也做出了积极贡献,尽管它们在性能优化中扮演次要角色,模型准确率分别下降了0.24%和0.51%。此外,数据增强的使用有效缓解了过拟合并增强了网络训练的整体效率。总之,我们的消融实验表明,每个模块都对模型的解码准确率做出了积极贡献。
为了评估多头注意力配置对模型性能的影响,我们进行了四种注意力头设置(head = 2, 4, 8, 16)的实验,如图4所示。箱线图表明,改变注意力头的数量在不同配置中并未产生统计上显著的解码性能差异,所有中位准确率稳定在0.84左右。然而,head=8配置表现出比其他设置略高的中位准确率。鉴于这一细微的性能优势,我们最终将注意力头的数量设置为8。
时空分辨率保持验证通过扰动分析
本实验旨在通过系统扰动分析验证TFANet模型在处理BCI-IV-2a数据集时是否有效保持EEG信号的时空分辨率,定量评估模型捕捉关键EEG特征的能力。在扰动实验设计方面,我们实施了四种类型的系统扰动测试:时间片扰动,随机选择10–50%的时间点被置零,以评估模型对时间信息完整性的依赖性;时间段扰动,在不同时间位置将连续的200个时间点段置零,以识别关键时间窗口;通道扰动,随机选择10–50%的EEG通道被置零,以评估空间信息的利用;空间区域扰动,将5个通道×200个时间点的空间块置零,以识别关键时空区域。所有实验结果使用输出差异(欧几里得距离)作为度量进行量化。
实验结果如图5所示。在时间片扰动测试中,随着扰动比例的增加,输出差异呈现出显著的单调递增趋势,表明模型对时间信息完整性具有高度敏感性。在时间段扰动测试中,输出差异在第4-5段显著高于其他段,这与运动想象任务中事件相关去同步(ERD)的典型时间窗口完美吻合。通道扰动测试显示,最大输出差异(16.5)出现在30%的扰动比例,表明模型具有通道选择能力,同时避免过度依赖任何单一通道。空间区域扰动测试显示,区域8的影响最大(输出差异为10),证实了模型有效识别关键空间区域的能力。
综合分析表明,TFANet模型成功保持了EEG信号的时空分辨率,不仅对时间信息完整性表现出高敏感性,还具有区分关键时间段的能力。此外,它还展示了强大的空间选择性和鲁棒性。这些特性使模型能够有效捕捉关键EEG特征,如运动想象任务中的ERD/ERS,为高精度BCI系统提供了可靠的理论基础。
时间依赖性评估
本实验评估了各种模型在MI分类任务中建立时间依赖性的能力。比较了五种不同的模型架构,包括基本卷积块、结合TDSCFN的卷积块、结合SA的卷积块、结合MSTSA的卷积块以及本文提出的复合模型。图6显示,TFANet在大多数参与者中实现了最高的准确率。这证实了其在捕捉序列数据时间依赖性方面的有效性。MSTSA有效捕捉了不同时间尺度上的关键特征,SE模块进一步优化了通道信息选择,而TDSCFN使模型能够处理高级时间特征。结果表明,每个模块对于提高模型的解码准确率都是不可或缺的,尽管程度不同。
多尺度时间自注意力机制的有效性
实验比较了单尺度时间自注意力(SSTSA)(具有四个大小为(1, 31)的卷积核)和多尺度时间自注意力(MSTSA)(具有四个大小为(1, 15)、(1, 31)、(1, 51)和(1, 75)的卷积核)对EEG-MI分类的影响。结果如图7所示。MSTSA在大多数受试者中实现了比SSTSA更高的分类准确率。多尺度时间自注意力模型利用不同尺度的卷积核来捕捉时间序列数据中各种时间范围的特征。这使得能够提取更全面的信息,超越了对单一时间维度特征的分析,可能有助于提高识别准确率。此外,这表明多尺度时间卷积在处理个体变异性时增强了模型的泛化能力。
比较不同通道注意力机制
本实验通过使用三种不同的注意力模块:ECA、CBAM和SE,探索了通道注意力机制的最佳选择。表10展示了模型在三种通道注意力模块上的性能,表明SE模块实现了最高的解码准确率。未使用通道注意力机制的基线模型达到了84.68%的准确率。当引入SE模块时,准确率增加至84.92%,提高了0.24%,证明了SE模块在增强通道特征表示方面的有效性。相比之下,ECA和CBAM模块显示出轻微的性能下降,准确率分别为84.57%和84.49%,相比基线模型下降了0.11%和0.19%。尽管性能改进较小,SE模块在此任务中仍显示出明显优势,特别是在捕捉通道间依赖性和加强特征表示方面。相比之下,ECA和CBAM模块未能显著提升性能,且在复杂性方面未提供足够优势。总体而言,SE模块以相对较低的计算成本提供了稳定的性能改进,成为此任务的首选。
模型训练过程与效果评估
为探究网络优化的内在机制,我们对BCIC-IV-2a上的训练损失和测试准确率进行了深入研究。在图8中,训练开始时,由于模型参数的随机初始化,训练损失较高。然而,随着训练的进行,训练损失显著下降并在约100次迭代后稳定,而测试准确率迅速上升并保持在高水平。对结果的综合分析表明,TFANet在保持模型简洁性和效率的同时,成功实现了解码性能的显著提升。
TFANet的跨受试性能
本研究在BCIC-IV-2a上使用留一受试者交叉验证下的迁移学习,调查了TFANet的跨受试解码性能。对于每个目标受试者,将所有剩余N-1名受试者(N = 总受试者数)的第一次会话EEG数据汇集形成源域训练集。模型在该集上从头开始预训练200个周期,以学习广义的运动想象特征。随后的微调采用目标受试者的第一次会话数据,无层冻结,对每个数据百分比(10–100%,以10%递增)使用单个随机选择的子集,并应用Adam优化器在固定的0.0005学习率下每个子集精确训练200个周期,无验证或早停。性能在目标的整个第二次会话上进行评估。
在图9中,水平轴代表目标受试者的适应率,而垂直轴表示目标受试者的分类准确率。结果表明,随着适应率的增加,测试准确率逐渐提高,表明为目标受试者进行微调显著增强了跨受试迁移学习的性能。具体地,当适应率为0%时,准确率为62.92%,当适应率为100%时,准确率达到77.20%。
表11比较了我们提出的方法与传统迁移学习方法在BCI-IV-2a数据集上的解码性能。结果表明,我们的方法在多个指标上优于其他方法。与传统迁移学习技术[WTLT和EA-CSP-LDA]相比,我们的方法实现了显著更高的平均准确率和Cohen's Kappa系数。值得注意的是,我们的模型比基于深度学习的迁移学习方法[包括C2CMD、DRDA和DAFS]的平均准确率提高了约2%。这一增强凸显了我们的方法在利用跨领域信息和适应EEG模式个体变异性方面的有效性。此外,较低的标准差值表明在MI-EEG的跨受试分类中具有改进的稳定性和一致性。
表12定量总结了TFANet在迁移学习期间的计算复杂性。该架构包含109,876个
生物通微信公众号
知名企业招聘