st-DenseViT:基于弱监督时空视觉Transformer的动态脑网络密集预测模型及其在精神分裂症研究中的应用

【字体: 时间:2025年09月29日 来源:Human Brain Mapping 3.3

编辑推荐:

  本文推荐一篇创新性研究,提出st-DenseViT模型,利用弱监督学习和视觉Transformer(ViT)架构,从功能磁共振成像(fMRI)数据中生成个性化的四维动态脑网络图谱。该模型通过空间-时间编码器和顺序编码器两种配置,有效捕获脑活动的时空动态变化,并在缺乏真实标注数据的情况下,借助空间约束窗口化独立成分分析(ICA)组件进行弱监督训练。研究证明,该模型不仅能生成平滑、去噪的动态图谱,还能显著区分精神分裂症(SCZ)患者与健康对照(HC),尤其在默认模式网络(DMN)等关键脑区中观察到组间差异,为脑动态映射及精神疾病机制研究提供了强大新工具。

  
引言
人脑是一个高度复杂的系统,由近千亿神经元组成,形成了数以万计的独特连接,构成了支持认知、记忆、情感和感知等关键功能的非线性动态网络。近年来,功能磁共振成像(fMRI)技术的进步使得全脑血氧水平依赖(BOLD)信号的同时记录成为可能,极大地推动了计算神经科学的发展。然而,现有的计算方法在捕获和表征脑网络内部的时空动态方面仍存在不足,例如共激活模式(CAPs)难以处理时间上重叠的脑状态,滑动窗口相关(SWC)方法受窗口长度选择的影响较大,相位同步(PS)主要关注相位关系而可能忽略振幅变化,切换线性动态系统(SLDS)则因需多个离散状态而难以解释。因此,开发能够同时捕捉时空动态的新型模型成为迫切需求。
相关概念
弱监督学习允许模型在缺乏精确标注的数据上进行训练,通过处理噪声、模糊或不完整的数据来学习预测模式。常见方法包括标签平滑、多示例学习(MIL)、远监督和标签噪声学习(LNL),这些方法在大数据时代尤为重要,因为获取全标注数据集往往不切实际。
时空密集预测是计算机视觉中的一项任务,旨在进行像素级或体素级预测,例如语义分割、实例分割、光流估计和深度估计等。这些任务需要模型准确捕捉空间和时间信息,以产生连贯的时空表征。近年来,新技术通过聚合流引导特征、利用序列建模和应用启发式方法来解决这些挑战。
脑分区指将大脑划分为功能或结构上不同的区域。最简单的方法是基于图谱的分区方法,但其依赖于预定义的解剖模板,存在个体差异和计算需求高的限制。另一种方法是基于功能连接的分区,例如独立成分分析(ICA),这是一种软分区技术,允许体素以不同权重参与多个网络。然而,ICA将时间贡献简化为每体积的标量值,可能过度简化脑活动的复杂性,因此开发能够完全捕获神经数据中复杂时间动态的高级动态脑分区方法至关重要。
方法
本研究提出的模型能够通过两种不同的配置生成脑网络的动态模式:空间-时间编码器和顺序编码器,两者均利用自注意力机制来编码空间和时间信息。模型以视觉Transformer(ViT)为骨干,首先将输入fMRI数据分割成一系列令牌,并添加可学习的位置嵌入以保留位置信息。
在空间-时间配置中,编码器同时处理所有时间点所有空间位置提取的补丁,通过时空自注意力模块动态权衡不同令牌的重要性,从而联合编码空间和时间信息。编码器由多个Transformer层组成,每层包含多头自注意力(MHSA)、层归一化(LN)和包含随机泄漏整流线性单元(RReLU)激活的多层感知器(MLP)。
在顺序编码器配置中,模型分别使用时间注意力编码器和空间注意力编码器两个不同的基于Transformer的模块来建模时间和空间依赖性。首先对fMRI数据提取每个时间点的空间补丁,得到空间令牌序列,然后通过时间编码器在时间维度上应用多头自注意力(MHSA),捕获不同时间点的依赖关系。时间编码器的输出被重塑后传递到空间编码器,该模块在每个时间步对空间令牌应用自注意力,在融入先前学习的时间上下文的同时细化空间特征表示。
与基于ViT的编码器不同,解码器头由一系列组件设计而成,包括层归一化、全连接层、固定正弦-余弦位置编码以及一系列具有不同核大小的三维深度wise转置卷积(ConvTranspose)层,最后是一个点wise Conv3D层,使用RReLU作为激活函数。解码器的输出对应于预测的时空脑图。
损失函数结合了光度和感知损失,以在保持数据全局结构的同时捕获动态模式。具体而言,损失函数包括基于Huber损失的稳健回归损失和结构相似性指数(SSIM)损失,以确保预测质量。
由于缺乏真实标注数据,本研究采用空间约束窗口化ICA组件作为弱监督来指导训练。ICA是一种半盲源分离技术,能够提取代表不同脑网络的独立成分(ICs)。具体而言,使用NeuroMark-fMRI-1.0模板,该模板包含从基因组超结构项目(GSP)和人类连接组计划(HCP)数据集中得出的可重复独立成分,通过多目标优化策略计算受试者特异性ICs。尽管ICA是一种线性技术,对噪声敏感,并且在窗口化配置中假设源的统计特性保持不变,但这些局限性使其适合作为深度学习模型的弱先验,从而能够学习非线性时空映射,产生平滑、去噪且可解释的4D脑活动图。
实验
实验使用了来自MPRC、FBIRN和COBRE数据集的508个fMRI数据集子集。为降低计算需求,以10个时间点间隔均匀采样fMRI数据,共使用10个时间点,并应用高斯滤波进行图像平滑,随后进行z评分以标准化数据。模型配置包括嵌入维度96、6个注意力头、深度1、注意力丢弃率0.4、编码器丢弃率0.3,补丁大小为5。训练在两块A40 GPU上进行,批量大小为2,使用学习率为0.01、权重衰减为0.1的Adam优化器,共运行150个周期,并采用提前停止策略以防止过拟合。
定性评估显示,模型生成的动态脑活动模式在空间和时间上均呈现平滑过渡,不同时间点的激活权重(分数)波动明显,突出了模型捕获时间连续性的能力,从而产生了更合理的脑活动表征。生成的地图与已知脑图谱高度一致,特别是在功能区域的空间定位方面,验证了模型在学习有意义空间特征方面的准确性。通过计算绝对时间梯度(TG)之和,进一步证明了模型捕获随时间动态模式的能力,该指标量化了脑活动的时间变化,提供了模型捕获逐渐和突然转变的补充视图。时间梯度强调了模型对激活动态变化的敏感性,进一步验证了其产生时间一致和生物学有意义表征的能力。
此外,模型能够有效去噪高度噪声的先验(弱监督),将其细化为更清晰、更可解释的动态脑图。这种去噪能力不仅提高了信噪比,而且增强了时空模式的可解释性,促进了对潜在神经过程的更深入理解。
为评估生成动态脑图的临床相关性,进行了一系列实验来探索其区分健康对照(HC)和精神分裂症(SCZ)个体的潜力。首先,将动态图在时间上平均并应用掩码提取脑体素,然后进行体素wise t检验以识别两组间显著差异的区域, resulting p值使用错误发现率(FDR)校正进行多重比较校正。其次,将相同t检验应用于TG图,以评估动态脑活动的组间差异。这些发现为探索其与精神分裂症病理生理学的潜在关联奠定了基础。
定量评估使用了几项关键指标,包括活动区域定位精度、视觉保真度、与预期模式的一致性以及区域同质性(通过每个感兴趣区域(ROI)内体素时间序列的相关性量化)。这些评估在生成图和先验图上进行,结果在时间上平均,同时平均交集 over联合(mIOU)和同质性(Hgt)指标应用阈值。结果表明,模型能够产生保留基本空间模式的合理地图,具有低平均绝对相对误差(mARE)和高mIOU、SSIM和同质性值。
此外,通过计算时间梯度图的香农熵来评估模型表示时间变化的能力,该指标提供了模型输出中捕获的变异性的指示。还利用连通组件算法来测量生成4D图的动态性,该算法识别空间上连续的活动体素集群(称为“blob”),代表经历动态转变的区域。通过计算整个测试集不同时间和不同网络的连通组件(blob)数量,评估了动态活动的空间分散和时间演变。
讨论
本研究提出了一种捕获脑动态的新方法,揭示了活动区域在形状、大小和区域位置上的时空变化。平均图与已建立的ICA模型和现有脑图谱的结果一致,而且模型通过生成去噪图有助于解释结果。定量指标提供了模型产生保留基本空间模式的合理地图的有力证据。
绝对时间梯度图(TGs)展示了模型捕获动态脑活动的能力,提供了超出平均图的见解,并与计算神经学的最新发现一致。例如,在后扣带皮层(PCC)中检测到变异升高,该区域在平均图中不可见,但已知其在默认模式处理中的作用。顺序配置的时间梯度图强调了丘脑中的显著活动,丘脑是一个与内侧前额叶皮层(mPFC)相互连接的区域,并在包括人类在内的哺乳动物物种中功能保守。
在显著性网络中,空间-时间配置的时间梯度图突出了PCC的显著活动,该区域涉及显著性事件处理和面部识别。在运动网络中,模型捕获了中脑预期的升高活动。顺序编码器配置还揭示了前额叶皮层的显著活动,该区域是运动计划、决策和认知控制的中心区域。
在视觉网络中,模型检测到海马体的活动,这与表明海马体在空间处理中的作用及其在自然行为期间与视觉皮层神经元功能耦合的文献一致。相比之下,顺序编码器配置强调了丘脑中的动态模式,特别是在外侧膝状体(LGN)中,这是一个将视觉信息从视网膜传递到初级视觉皮层的关键中继中心。
在皮层下网络中,顺序编码器配置的时间梯度揭示了前扣带皮层的显著变异性,该区域是前扣带-皮层下电路的起源,为腹侧纹状体和其他相关区域提供输入。此外,在小脑网络中,空间-时间配置下观察到小脑活动分数的显著变异性,而顺序编码器配置显示基底节中的变异性更大。这些区域之间的相互连接已得到充分证明,连接一个皮层下系统的运动和非运动域与另一个中的相应域。
对临床数据集的应用
在DMN中,时间平均空间-时间配置显示出潜在的差异,特别是在丘脑内,健康对照可能表现出比精神分裂症个体更高的活动。这一观察部分与表明丘脑信息流中断可能导致精神分裂症症状的研究一致。类似地,TG图表明顶叶小叶可能存在差异,这可能表明精神分裂症失组织症状中顶叶与其他脑区之间的连接异常。此外,精神分裂症受试者中似乎前额叶中回活动增加,这可能支持关于该区域在精神分裂症中改变的假设。最后,精神分裂症中前扣带皮层(ACC)的变异性似乎升高,与既报告ACC低激活又报告高激活的研究产生共鸣,这种变异性可能反映了静息时过度活跃的ACC,在任务需求增加时难以进一步激活,导致相对低活动。
在显著性网络中,时间平均空间-时间图显示健康对照前额叶皮层激活倾向于高于精神分裂症受试者,这部分与表明精神分裂症患者通常在依赖于前额叶皮层功能的任务上遇到困难的研究一致。此外,健康对照中左初级听觉皮层(Heschl's回)的变异性更大的暗示,这可能与表明该区域体积和厚度减少与精神分裂症听觉幻觉有关的研究一致。精神分裂症受试者还似乎显示前扣带一小区域局部激活和右颞上沟(STS)变异性增加,该区域先前与精神分裂症过度激活相关。
在运动网络中,时间平均图表明健康对照DMN右顶叶区域过度激活,而精神分裂症受试者显示右顶下皮层过度激活。这些观察可能对应于精神分裂症中连接模式改变的现有证据,其中外侧DMN显示与感觉运动区域连接减少但与异模态关联区域连接增加。此外,健康对照中小脑与运动网络相互作用的变异性更高,这可能与表明精神分裂症中小脑小叶与运动区域功能关联 disrupted的研究一致。精神分裂症还似乎与楔前叶低激活相关,并且与健康对照相比丘脑变异性减少。
在视觉网络中,时间平均图表明健康对照后海马体过度激活,与先前研究一致。然而,精神分裂症受试者显示顶上皮层变异性增加,该区域涉及空间感知、注意力和自我意识。与运动网络类似,精神分裂症中观察到楔前叶低激活。此外,精神分裂症受试者纹外皮层变异性减少,该区域与精神分裂症视觉处理异常相关。
在皮层下网络中,精神分裂症个体显示初级运动皮层低激活,这可能与神经电路 disrupted和多巴胺信号失调引起的运动症状有关。然而,他们还显示顶叶一小区域过度激活。此外,健康对照中默认模式网络变异性增加,而这些对照在顺序编码器配置下显示左顶叶过度
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号