利用CogRepLKNet结合EEG-fMRI技术探索认知工作负荷的识别方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Exploring Cognitive Workload Recognition Using CogRepLKNet with EEG-fMRI

【字体：大中小】 时间：2026年01月12日 来源：Neural Networks 6.3

编辑推荐：

　　认知负荷多模态识别方法与模型研究，提出CogRepLKNet网络通过大核和小核卷积并行处理EEG和fMRI数据，结合自适应门控注意力融合机制，实现高效特征提取与跨模态建模，在自建数据集上验证其优越性。

杨绍|周月英|文旭云|龚培良|戴群|张道强

南京航空航天大学人工智能学院，中国江苏省南京市211106

摘要

由于难以建模脑电图（EEG）和功能性磁共振成像（fMRI）数据之间的跨模态关系，准确的多模态认知工作负荷识别（CWR）仍然具有挑战性。此外，这些生理信号的固有异质性——每种信号都捕捉不同的神经特征——使得统一的特征提取变得复杂。为了解决这个问题，我们提出了CogRepLKNet，这是一种通用且可重新参数化的大核卷积神经网络（CNN），专为多模态EEG-fMRI建模设计。CogRepLKNet采用了两个并行的通用感知分支，由堆叠的大核和小核CNN组成，并结合了一个自适应的门控注意力融合机制，以共同捕获两种模态下的互补时空动态。与基于Transformer的方法相比，这种设计能够以更低的计算复杂度和更少的训练样本实现高效的特征整合。通过输入投影，感知模块能够在不改变其架构的情况下跨各种生理信号进行通用特征提取。在自构建的EEG-fMRI数据集上的实验表明，CogRepLKNet取得了最先进的性能，同时保证了低训练复杂性和易于移植性。CogRepLKNet在推进CWR的多模态应用方面具有巨大潜力。我们的代码可在以下链接获取：https://github.com/prestyan/CogRepLKNet

引言

认知工作负荷衡量了人类在特定任务下自发施加的心理努力。它是大脑可用资源与任务需求之间平衡的关键指标（Van Benthem等人，2023年；Wickens，2002年）。通常，认知工作负荷被分为两个级别（Chakladar等人，2023年；Zhou等人，2023年），例如低级和高级。然而，随着技术的进步和对大脑功能的更深入理解，最近的研究提出了更细致的分类，扩展到了三个或更多精确的级别（Liu等人，2022年；Shao等人，2024年）。由于人类认知资源的有限性，高资源需求的任务会显著增加认知工作负荷，从而增加操作事故的可能性。相反，低资源需求的任务可能导致负荷不足，可能降低注意力和专注度（Zhou等人，2022a）。因此，识别和维持良好的认知工作负荷有助于操作员高效且安全地完成任务（Gupta等人，2021年）。

在认知工作负荷识别（CWR）中，通常采用两种主要方法：主观量表方法（例如NASA-TLX量表，Hart和Staveland，1988年）和基于生理信号的方法。后者因其实时性和客观性而受到大多数研究人员的青睐（Heard等人，2018年；Zhou等人，2022b）。在各种生理信号中，脑电图（EEG）是最广泛使用的之一（Wang等人，2024b）。EEG直接测量头皮的电活动，这与大脑皮层中的神经活动密切相关（Zhang等人，2019年）。由于认知功能是由大脑皮层内的网络介导的（Cichy和Oliva，2020年），EEG直接反映了认知工作负荷的水平。此外，EEG具有多个优势，包括高时间分辨率、低成本以及对某些伪迹的抵抗力，使其非常适合用于CWR（Das Chakladar和Roy，2024年；Peng等人，2023年；Zhou等人，2022a）。然而，EEG信号本质上较弱，容易受到信噪比低的影响。其空间分辨率也受到电极密度和体积传导效应的限制（Warbrick，2022年）。

功能性磁共振成像（fMRI）技术通过识别大脑血流的变化来监测和量化大脑内的活动，其空间分辨率高于EEG。不同的认知工作负荷会导致大脑神经细胞代谢的变化（Warbrick，2022年），这些变化通过血氧水平依赖性被fMRI检测到（Singleton，2009年）。然而，这种血流动力学变化在神经活动发生几秒后才出现，比EEG慢得多（Logothetis等人，2001年）。尽管fMRI缺乏实时记录能力，但认知工作负荷在个体内部通常表现出相对稳定和长期的模式（Zhou等人，2022a），使得fMRI能够在受控实验条件下作为识别工作负荷水平的可靠和准确的方法。此外，它为离线分析和认知工作负荷的机制探索提供了独特的优势。因此，许多研究人员通过结合多模态EEG和fMRI数据发现了互补和增强的见解，如图S1所示，使用这种集成方法进行生物信号分析中的模式识别。

一般来说，多模态融合可以分为两种主要类型：对称融合和不对称融合。在不对称融合中，一种模态（例如EEG）用于指导或约束另一种模态（例如fMRI），而对称融合旨在平等整合两种模态以学习共享和互补的表示。第2节提供了更详细的描述。目前，EEG-fMRI多模态数据主要用于大脑功能分析，包括通过整合先验神经信息和动态因果模型来优化神经和血流动力学参数的估计（Raffin等人，2021年；Wei等人，2020年），以及研究不同刺激下大脑跨模态关联区域的变化（Bridwell和Calhoun，2019年；Timmermann等人，2023年）。然而，这些研究在很大程度上依赖于神经学的先验知识，并没有充分利用跨模态的互补特征。一些研究尝试利用深度学习的强大特征提取能力来构建跨模态特征（Liu等人，2024年；Mounika和R，2023年），从而缓解了先验知识的固有局限性。然而，据我们所知，公开可用的EEG-fMRI数据集很少，同时利用EEG-fMRI数据的研究更是寥寥无几，主要是由于缺乏能够处理异构生理模态的强大特征融合模型。

在基于深度学习的多模态大脑解码中，由于不同生理特征表示的一致性不同，通常需要不同的网络架构来处理它们（Cichy和Oliva，2020年；Lahat等人，2015年）。例如，EEG数据具有丰富的时域和频域信息，而fMRI数据提供了丰富的空间信息。以往的研究通常需要为每种模态设计单独的网络（Hosseini等人，2020年；Liu和Sajda，2023年；Pereira等人，2021年），并且经常依赖于复杂的层次融合架构（Wang等人，2024a）。这些方法不仅增加了整体模型的复杂性，降低了可移植性，还阻碍了有效的和对称的多模态融合。更关键的是，缺乏能够学习共享和互补表示的强大跨模态建模框架，使得对称融合策略大多未被充分探索。为了解决这个问题，本文提出了一种创新的CogRepLKNet（通用可重新参数化的大核网络，用于CWR）。该网络完全由堆叠的卷积神经网络（CNN）模块组成，其主要架构结合了专注于捕获局部特征的小核CNN和专注于捕获全局特征的可重新参数化的大核扩张卷积。这种设计在通用特征提取方面表现出强大的能力，包括从图像中提取空间特征和时间特征（Ding等人，2024年；Liu等人，2023年）。利用简单增加核大小可以带来显著改进的原则（Ding等人，2022a），我们将大核大小扩展到13个或更多，以更好地适应CWR。

基于CogRepLKNet，我们在自构建的EEG-fMRI数据集上进行了CWR。我们的架构表现出比现有流行方法显著更高的性能。我们的主要贡献如下：

(1) 基于认知工作负荷任务收集了同时的EEG-fMRI数据集，旨在缓解CWR领域多模态数据的稀缺性。

(2) 提出了创新的CogRepLKNet，用于通用CWR特征提取任务。它简化了网络设计，同时实现了强大的对称跨模态性能。

(3) 进一步探索了纯CNN架构在生理信号中的潜力，为后续研究不同网络架构在生理信号中的应用做出了贡献。

部分摘录

不对称融合方法

相关研究在补充材料的表SI中呈现。不对称多模态融合方法是指从一种模态提取信息来约束或指导另一种模态的分析，其中这两种模态在角色或状态上是不平等的。在EEG-fMRI分析的背景下，可以从EEG（或fMRI）中获得的先验信息用于预测或约束fMRI（或EEG）的特征（Wei等人，2020年）。这类方法通常被归类为EEG-Informed

方法

本节概述了CogRepLKNet的总体架构，如图1所示。(1) 特征提取过程：并行从EEG和fMRI中提取有效特征。(2) 自适应门控交叉注意力融合（AGAF）：结合提取的特征以增强多模态EEG-fMRI表示。(3) 通用感知模块（UPM）：特征提取的核心模块，采用大核（LK）扩张卷积和小核（SK）卷积的交错设计来高效地

数据集

认知工作负荷数据来自30名参与者，他们通过工作记忆（WM）任务范式产生了不同水平的认知工作负荷。这些数据可以通过联系相应作者获得。我们尊重所有参与者的隐私，所有提供的数据都已匿名处理。每位参与者在实验前签署了知情同意书。以下部分将提供有关参与者人口统计和实验的详细信息

实施细节

根据第3节的描述，本实验定义了CogRepLKNet的三种架构，如表1所示。阶段X（SX）表示该阶段的卷积模块数量，而C表示每个阶段的输出通道数量。以CogRepLKNet-v2为例，第3阶段包括两个LK模块和四个SK模块，如图1(c(②)所示堆叠。四个阶段的输出通道数量分别设置为80、160、320和640。

模型通用性分析

为了证明CogRepLKNet具有通用特征提取能力，我们对模型进行了通用性分析。EEG信号被替换为相应的马尔可夫变换场（MTF）图像，以测试CogRepLKNet的通用性。MTF用于基于像素的局部和全局信息进行区域分割。它可以有效地捕获图像中相邻像素之间的依赖性，从而提高分割精度。由于图像特征

结论

在这项研究中，我们提出了用于EEG-fMRI多模态融合的CogRepLKNet模型，该模型具有可重新参数化的LK CNN。该模型使用自构建的EEG-fMRI认知工作负荷数据集进行了评估。结果表明，所提出的模型有效地整合了EEG和fMRI数据，在保持合理计算效率的同时显著提高了识别准确性。具体来说，CogRepLKNet在准确性和模型复杂性方面均优于现有方法

CRediT作者贡献声明

杨绍：写作——审稿与编辑，撰写——初稿，可视化，软件，方法论，正式分析，数据管理，概念化。周月英：写作——审稿与编辑，验证，数据管理。文旭云：写作——审稿与编辑，正式分析。龚培良：写作——审稿与编辑，数据管理。戴群：概念化，写作——审稿与编辑。张道强：监督，项目管理，资金获取，概念化。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号