STPA-Net：结合时空卷积、多尺度特征金字塔和多注意力机制的基于脑电图（EEG）的情绪解码方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：STPA-Net: integrating spatio-temporal convolutional, multi-scale feature pyramid, and multi-attention mechanisms for EEG-based emotion decoding

【字体：大中小】 时间：2026年02月17日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　情绪识别基于改进的多尺度注意力机制模型STPA-Net，通过预处理背骨网络提取时空特征，结合多级特征金字塔和增强的通道-空间注意力机制有效融合多尺度信息，在四组SEED数据集上取得97.74%至70.93%的准确率，首次在SEED-VII单模态EEG数据集实现7类情绪识别。

吴世豪|何新生|郑慧|万峰|陈创泉|王洪涛

五邑大学电子与信息工程学院，中国江门529020

摘要

利用生理信号（尤其是脑电图EEG）进行情感识别因其客观性和抗干扰能力而受到广泛关注。然而，仍存在挑战，包括原始EEG数据的高维度、非平稳性和易受噪声干扰的问题，以及现有多尺度特征提取方法的局限性。本研究提出了STPA-Net框架，该框架包含三个主要模块：(i) 用于预处理原始EEG以保留时空模式的骨干网络；(ii) 多尺度注意力金字塔（MAFP），用于跨时间分辨率的多尺度特征层次融合；(iii) 增强型通道-空间注意力（ECSA），通过轻量级的通道-空间注意力实现二维特征增强。在四个标准数据集（SEED-III、SEED-IV、SEED-V和SEED-VII）上的实验结果表明，STPA-Net的有效性。该模型在内部受试者和跨受试者场景下的平均准确率分别为97.74%、91.87%、79.29%和70.93%、77.45%、53.04%、51.98%和33.05%。值得注意的是，这项工作首次使用新发布的SEED-VII数据集中的独立EEG信号进行情感识别。这些结果验证了所提出方法在情感解码方面的卓越准确性和泛化能力。

引言

想象一个完全由冷冰冰的数据、枯燥的事实和无情感的逻辑主导的世界——那将是多么单调和难以忍受。幸运的是，大自然赋予了人类一份宝贵的礼物：情感。作为一种复杂的生理和心理状态，情感在日常生活中起着关键作用，深刻影响人类的决策、计划、推理和其他心理状态[1]。情感识别在包括面对面交流、日常决策和脑机接口（BMI）系统在内的多个领域变得越来越重要[2]。在情感识别领域，研究人员不仅研究通过面部表情[3]、手势[4]和语音[5]表现出来的情感表达，还特别关注生理信号（如EEG、功能性近红外光谱（FNIRS）、眼电图（EOG）、肌电图（EMG）和心电图（ECG）的分析[6]。生理信号固有的客观性和不可掩盖性，加上信号采集技术的最新进展，使得基于生理学的情感识别成为学术界和工业界关注的焦点。

生理信号可以反映情感变化，而EEG因其高分类准确性而被认为是情感解码的直接和详细的数据来源。作为一种具有高时间分辨率的生理电信号，EEG被广泛认为是反映大脑认知状态的“黄金标准”。此外，其优越的空间分辨率使EEG在评估大脑功能方面表现出色，从而在情感识别研究中得到广泛应用。然而，EEG信号也存在局限性。在情感识别中使用EEG信号的一个主要挑战是存在多种噪声伪影。另一个缺点是EEG信号的空间分辨率有限，再加上EEG本身的不确定性和复杂性，这使得精确检测情感状态期间激活的大脑区域变得复杂[7]。近年来，差分熵（DE）作为一种有效的EEG基情感识别特征提取方法受到了广泛关注。段等人[8]通过量化EEG信号的不确定性和复杂性成功地捕捉到了与情感相关的神经活动变化。郑等人[9]开发了一种结合动态差分熵（DDE）和大脑连接特征的增强型DE方法，在EEG情感识别中表现出色。赵等人[10]提出了一个混合DE-CNN-GRU模型，实现了高分类准确率。然而，以往的研究未能充分解决DE对参数配置的敏感性问题，这可能引入主观性和结果的不确定性。此外，使用DE处理原始EEG信号通常需要经验丰富的专家进行手动特征设计和提取。鉴于原始EEG数据的高维度、非平稳性和易受噪声干扰的特性，这些特性给分析带来了挑战，因此需要专门的方法来有效处理原始EEG信号。

为了从EEG信号中获得增强的情感特征表示，研究人员设计了各种架构来提取时间和频率域的多尺度特征。Farokhah等人[11]使用短时傅里叶变换（STFT）将EEG信号转换为二维图像用于训练和情感分析。Muharrem等人[12]采用经验小波变换（EWT）信号分解方法从EEG信号中提取频率成分以进行情感识别。Mezzini等人[13]利用深度学习技术分析EEG频谱进行情感解码。Zhang等人[14]设计了一种滤波器来最大化两个分类器之间的输出差异以进行情感识别。最近的研究表明，通过利用不同感受野中的区域特定特征，可以从某些脑信号输入中提取更丰富的信息。然而，这些方法未能有效捕捉包含多种时间尺度和频率特征的多尺度特征，而这些特征对于深入解释EEG信号至关重要。

为了捕捉与情感密切相关的特征，基于注意力的特征增强方法[15]、[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]、[24]在情感识别任务中得到了广泛应用，因为它们能够有效捕捉跨模态和模态内的关键语义关系。这些方法结合了经典注意力模型（如Transformer[15]、[16]、[17]、CBAM[18]、[19]和SE-Net[21]的优势，或利用多模型架构[20]，动态分配权重以准确聚焦于情感表达的核心特征。例如，郑等人[22]提出的STS-Transformer模型是一个端到端框架，可以直接从原始EEG信号中识别情感，无需数据预处理或特征提取。Si等人[23]提出的MACTN模型结合了自注意力和通道注意力机制，显著提高了情感解码性能。Houssein等人[24]结合了时频卷积神经网络（TFCNN）、双向门控循环单元（BiGRU）和自注意力机制（SAM），在情感解码的第二、三、四类中的准确率分别为93.1%、96.2%和92.9%。尽管注意力机制可以有效地聚焦于关键特征，但仍存在稀疏匹配依赖性、高计算复杂性（O(n^2)）和长期依赖性建模不足等问题。因此，如何进一步优化注意力机制以增强计算效率和长期依赖性建模仍然是值得进一步探索的研究方向。

为了解决上述问题，我们提出了一个名为STPA-Net的新框架，该框架结合了EENet[25]、特征金字塔[26]和增强型CBAM，以实现准确的情感识别。在STPA-Net中，骨干网络从原始EEG中提取时空特征，而特征金字塔利用多级特征捕捉广泛的时间尺度特征。此外，ECSA采用通道-空间双粒度注意力协作和多分支异构卷积融合，平衡了多尺度特征增强与轻量计算，有效提高了模型从EEG信号中提取情感相关特征的鲁棒性。值得注意的是，所提出的算法受到了我们团队在2023年世界机器人竞赛-脑机接口比赛中获得第二名的算法[27]（清华大学获得第一名）的启发。比赛结果不仅在官方MATLAB网站上进行了展示，还存档在全球竞赛获胜者档案[28]中。我们在四个公开可用的数据集（SEED-III[29]、SEED-IV[30]、SEED-V[31]和最新的SEED-VII[32]）上进行了系列跨受试者和内部受试者实验。与最先进方法的比较分析表明，STPA-Net实现了最先进的情感识别性能。据我们所知，这是首次基于SEED-VII数据集中的单模态EEG信号引入情感识别范式的研究。本工作的贡献总结如下：

(1)

我们设计了一种特征金字塔架构，结合了多尺度特征串联，全面捕捉了EEG数据的层次化时间动态，从而提高了情感识别性能。

(2)

原始EEG信号通过STPA-Net进行时空特征融合，通过捕捉情感模式提取具有情感区分性的神经表示。

(3)

所提出的ECSA机制结合了跨维度注意力协调与多尺度卷积融合，显著提高了从EEG信号中提取情感区分性特征的鲁棒性。

(4)

我们在四个公共数据集上评估了所提出的框架：新发布的SEED-VII用于7类情感解码，以及SEED-III、SEED-IV和SEED-V。我们在这些数据集上进行了内部受试者和跨受试者验证协议，以证明其有效性。

本文的其余部分组织如下：第二节介绍相关工作，第三节介绍STPA-Net的神经网络架构和方法论，第四节详细讨论实验结果和解释性分析，第五节提出本研究的结论、局限性和未来研究方向。

部分摘录

方法

本章介绍了我们系统的神经网络组成部分。如图1所示，所提出的STPA-Net包括三个核心组件。首先，原始EEG信号被输入到骨干网络中，通过卷积操作进行时空特征提取。接下来，特征金字塔（MAFP）执行多尺度特征融合。然后，使用TRLNet增强时间信号表示。此外，引入了ECSA注意力机制以提高分类性能

结果与分析

我们主要介绍了实验材料、实验设置、实现细节、实验结果以及结果的解释性分析，包括：(a) 与经典方法的内部受试者比较，(b) 与经典方法的跨受试者比较，(c) 混淆矩阵，(d) T-SNE可视化，以及(e) 消融实验。

结论

本研究提出了一个基于EEG的新情感识别框架STPA-Net，该框架结合了多尺度特征金字塔和增强型注意力机制，有效缓解了现有方法中常见的特征表示和分类鲁棒性方面的局限性。具体来说，STPA-Net结合了骨干网络的时空特征提取能力、层次化多尺度注意力金字塔（MAFP）和增强型通道-空间

局限性与未来工作

尽管STPA-Net展示了有效的性能改进，但仍存在某些局限性。首先，该模型目前仅依赖于EEG信号进行识别，表明其对单一数据源的依赖性。其次，随着特征序列维度的增加，计算复杂性显著上升，这可能限制其在资源受限环境中的应用。展望未来，我们的研究将集中在两个主要方向：

CRediT作者贡献声明

吴世豪：写作——审稿与编辑，方法论。何新生：写作——原始草稿。郑慧：软件。万峰：监督。陈创泉：写作——审稿与编辑。王洪涛：监督，调查。

利益冲突声明

作者未报告任何潜在的利益冲突。

致谢

本研究部分得到了广东省关键学科研究能力提升项目（项目编号2024ZDJS033）和广东大学创新团队计划（项目编号2025KCXTD048）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号