认知工作负荷衡量了人类在特定任务下自发施加的心理努力。它是大脑可用资源与任务需求之间平衡的关键指标(Van Benthem等人,2023年;Wickens,2002年)。通常,认知工作负荷被分为两个级别(Chakladar等人,2023年;Zhou等人,2023年),例如低级和高级。然而,随着技术的进步和对大脑功能的更深入理解,最近的研究提出了更细致的分类,扩展到了三个或更多精确的级别(Liu等人,2022年;Shao等人,2024年)。由于人类认知资源的有限性,高资源需求的任务会显著增加认知工作负荷,从而增加操作事故的可能性。相反,低资源需求的任务可能导致负荷不足,可能降低注意力和专注度(Zhou等人,2022a)。因此,识别和维持良好的认知工作负荷有助于操作员高效且安全地完成任务(Gupta等人,2021年)。
在认知工作负荷识别(CWR)中,通常采用两种主要方法:主观量表方法(例如NASA-TLX量表,Hart和Staveland,1988年)和基于生理信号的方法。后者因其实时性和客观性而受到大多数研究人员的青睐(Heard等人,2018年;Zhou等人,2022b)。在各种生理信号中,脑电图(EEG)是最广泛使用的之一(Wang等人,2024b)。EEG直接测量头皮的电活动,这与大脑皮层中的神经活动密切相关(Zhang等人,2019年)。由于认知功能是由大脑皮层内的网络介导的(Cichy和Oliva,2020年),EEG直接反映了认知工作负荷的水平。此外,EEG具有多个优势,包括高时间分辨率、低成本以及对某些伪迹的抵抗力,使其非常适合用于CWR(Das Chakladar和Roy,2024年;Peng等人,2023年;Zhou等人,2022a)。然而,EEG信号本质上较弱,容易受到信噪比低的影响。其空间分辨率也受到电极密度和体积传导效应的限制(Warbrick,2022年)。
功能性磁共振成像(fMRI)技术通过识别大脑血流的变化来监测和量化大脑内的活动,其空间分辨率高于EEG。不同的认知工作负荷会导致大脑神经细胞代谢的变化(Warbrick,2022年),这些变化通过血氧水平依赖性被fMRI检测到(Singleton,2009年)。然而,这种血流动力学变化在神经活动发生几秒后才出现,比EEG慢得多(Logothetis等人,2001年)。尽管fMRI缺乏实时记录能力,但认知工作负荷在个体内部通常表现出相对稳定和长期的模式(Zhou等人,2022a),使得fMRI能够在受控实验条件下作为识别工作负荷水平的可靠和准确的方法。此外,它为离线分析和认知工作负荷的机制探索提供了独特的优势。因此,许多研究人员通过结合多模态EEG和fMRI数据发现了互补和增强的见解,如图S1所示,使用这种集成方法进行生物信号分析中的模式识别。
一般来说,多模态融合可以分为两种主要类型:对称融合和不对称融合。在不对称融合中,一种模态(例如EEG)用于指导或约束另一种模态(例如fMRI),而对称融合旨在平等整合两种模态以学习共享和互补的表示。第2节提供了更详细的描述。目前,EEG-fMRI多模态数据主要用于大脑功能分析,包括通过整合先验神经信息和动态因果模型来优化神经和血流动力学参数的估计(Raffin等人,2021年;Wei等人,2020年),以及研究不同刺激下大脑跨模态关联区域的变化(Bridwell和Calhoun,2019年;Timmermann等人,2023年)。然而,这些研究在很大程度上依赖于神经学的先验知识,并没有充分利用跨模态的互补特征。一些研究尝试利用深度学习的强大特征提取能力来构建跨模态特征(Liu等人,2024年;Mounika和R,2023年),从而缓解了先验知识的固有局限性。然而,据我们所知,公开可用的EEG-fMRI数据集很少,同时利用EEG-fMRI数据的研究更是寥寥无几,主要是由于缺乏能够处理异构生理模态的强大特征融合模型。
在基于深度学习的多模态大脑解码中,由于不同生理特征表示的一致性不同,通常需要不同的网络架构来处理它们(Cichy和Oliva,2020年;Lahat等人,2015年)。例如,EEG数据具有丰富的时域和频域信息,而fMRI数据提供了丰富的空间信息。以往的研究通常需要为每种模态设计单独的网络(Hosseini等人,2020年;Liu和Sajda,2023年;Pereira等人,2021年),并且经常依赖于复杂的层次融合架构(Wang等人,2024a)。这些方法不仅增加了整体模型的复杂性,降低了可移植性,还阻碍了有效的和对称的多模态融合。更关键的是,缺乏能够学习共享和互补表示的强大跨模态建模框架,使得对称融合策略大多未被充分探索。为了解决这个问题,本文提出了一种创新的CogRepLKNet(通用可重新参数化的大核网络,用于CWR)。该网络完全由堆叠的卷积神经网络(CNN)模块组成,其主要架构结合了专注于捕获局部特征的小核CNN和专注于捕获全局特征的可重新参数化的大核扩张卷积。这种设计在通用特征提取方面表现出强大的能力,包括从图像中提取空间特征和时间特征(Ding等人,2024年;Liu等人,2023年)。利用简单增加核大小可以带来显著改进的原则(Ding等人,2022a),我们将大核大小扩展到13个或更多,以更好地适应CWR。
基于CogRepLKNet,我们在自构建的EEG-fMRI数据集上进行了CWR。我们的架构表现出比现有流行方法显著更高的性能。我们的主要贡献如下:
(1) 基于认知工作负荷任务收集了同时的EEG-fMRI数据集,旨在缓解CWR领域多模态数据的稀缺性。
(2) 提出了创新的CogRepLKNet,用于通用CWR特征提取任务。它简化了网络设计,同时实现了强大的对称跨模态性能。
(3) 进一步探索了纯CNN架构在生理信号中的潜力,为后续研究不同网络架构在生理信号中的应用做出了贡献。