MindShot:一种通过跨主体先验知识迁移和频域知识提取实现的多次射击式脑解码框架
《Knowledge-Based Systems》:MindShot: A Few-Shot Brain Decoding Framework via Transferring Cross-Subject Prior and Distilling Frequency Domain Knowledge
【字体:
大
中
小
】
时间:2025年11月20日
来源:Knowledge-Based Systems 7.6
编辑推荐:
脑解码研究提出MindShot框架,通过多模态对比学习预训练跨个体知识,再利用傅里叶变换的跨个体知识蒸馏模块减少个体差异,实现仅需1.8% fMRI数据量即达83.6% CLIP精度,较全数据集方法提升6.2%,减少99%扫描时间。
脑解码技术近年来取得了显著进展,尤其是在利用功能性磁共振成像(fMRI)数据重建视觉刺激方面。然而,这一技术仍然面临诸多挑战,例如个体间的差异较大以及数据采集成本高昂。为了解决这些问题,大多数方法采用了“每人每模型”(per-subject-per-model, PSPM)的范式,即为每个受试者单独训练一个解码模型。这种做法虽然在一定程度上提高了模型的准确性,但严重限制了其在新受试者中的应用,因为每次应用都需要重新进行脑扫描,增加了时间和经济成本。
为应对这些限制,本文提出了一种专门针对潜在临床场景的少样本脑解码方法,设计了一个名为MindShot的两阶段解码框架。MindShot框架包括两个主要阶段:多受试者预训练(Multi-Subject Pretraining, MSP)阶段和基于傅里叶变换的跨受试者知识蒸馏(Fourier-based cross-subject Knowledge Distillation, FKD)阶段。MSP阶段采用多模态对比学习的方法,以挖掘跨受试者的先验知识。FKD阶段则通过减少个体间的差异,提升模型对新受试者的适应能力,从而增强重建图像的语义保真度。
在实验过程中,MindShot在最大的数据集上取得了高质量的视觉重建效果,同时具备显著降低扫描时间的潜力,最多可减少至原来的1%。更令人瞩目的是,MindShot在仅使用1.8%的fMRI-图像对的情况下,达到了83.6%的CLIP准确率,超越了在完整NSD数据集上训练的方法所获得的77.4%的准确率。这一成果表明,MindShot能够有效训练大规模的脑解码框架,同时减少所需的数据量,从而为实际应用提供了可行的解决方案。
脑解码技术的发展与解码方法的进步密不可分。在早期,研究者主要关注如何将fMRI数据映射到深度神经网络(DNN)的预训练特征中,以实现对真实图像的重建。例如,Shen等人[18]设计了一种特征解码器,将fMRI模式映射到多层预训练DNN的特征中。随着生成对抗网络(GANs)的出现,研究者开始探索将fMRI模态的研究重点从特征映射转向GAN的潜在空间,从而提升了对人脸和自然图像的重建能力。
近年来,脑解码框架的构建取得了重要突破。从GANs到扩散模型(diffusion models, DMs),这些方法使得重建的图像更加逼真和语义忠实。然而,脑解码技术仍然面临许多挑战,尤其是在处理个体差异和数据采集成本方面。由于每个受试者对相同的视觉刺激会产生不同的神经反应,因此大多数现有方法需要为每个受试者单独训练模型。这种做法虽然在一定程度上提高了模型的准确性,但显著增加了数据采集的难度和成本,限制了脑解码模型在新受试者中的应用。
为了解决这一问题,本文提出了一种新的任务:少样本脑解码(few-shot brain decoding)。该任务的目标是通过仅使用少量新受试者的fMRI-图像对来实现视觉重建。少样本脑解码的核心挑战在于如何在有限的数据条件下,仍能获得高质量的图像重建结果。如图1(a)和(b)所示,当新受试者拥有足够的数据(约40小时的扫描时间)时,PSPM方法可以达到相对较高的语义准确率。然而,在少样本场景下(约21.7分钟的扫描时间),其性能会显著下降。因此,研究者开始探索跨受试者框架,以减少新受试者所需的数据量。
本文的研究重点在于探讨如何将脑解码模型从一个个体迁移到另一个个体,以实现两个目标:一是理解个体之间有意义信号变异的比例;二是为构建可能适用于临床环境的模型,制定高效的数据采集策略。为此,我们提出了MindShot框架,该框架利用跨受试者先验知识来提升少样本场景下的性能。首先,通过多模态对比学习的方式,MindShot捕捉了多个受试者之间的先验知识。然后,利用这些先验知识,结合少量的新受试者fMRI-图像对,对脑解码模型进行微调。
值得注意的是,缺乏有效的生物指导使得从fMRI数据中解释新受试者的复杂神经活动成为一个重大挑战。为了解决这一问题,我们引入了基于傅里叶变换的跨受试者知识蒸馏(FKD)模块。该模块通过在频域中强调信号的相关和有意义部分,从而减少个体间的差异,并促进先验知识在不同受试者之间的迁移。通过这种方式,MindShot能够有效降低个体差异,提高模型对新受试者的适应能力,从而实现高质量的图像重建。
在实验部分,我们对自然场景数据集(Natural Scenes Dataset, NSD)[17]进行了广泛的测试,结果表明MindShot能够在仅训练少量参数的情况下,实现高质量的视觉重建效果,并显著优于基于PSPM范式的最先进方法。此外,我们的方法在减少扫描时间方面也表现出色,最多可减少至原来的1%。也就是说,仅使用1.8%的fMRI-图像对,MindShot就能达到与完整数据集训练方法相当的性能。这一结果进一步突显了我们的少样本脑解码模型的优势。
本文的贡献可以总结为以下三点:第一,设计了一个新的少样本脑解码任务,并提出了相应的少样本脑解码框架MindShot,以缓解新受试者fMRI-图像对的稀缺问题;第二,构建了一个基于多模态对比学习的多受试者预训练(MSP)框架,以挖掘跨受试者的先验知识;第三,提出了基于傅里叶变换的跨受试者知识蒸馏(FKD)模块,以减少个体差异,提升模型对新受试者的适应能力,并最终增强重建图像的语义保真度。
在具体实施过程中,所有实验均在PyTorch框架下进行,并在单个配备80GB内存的NVIDIA A100 GPU上完成。为了提高训练效率,我们采用了周期性学习率策略,最大学习率设置为3×10??。此外,我们还对模型的训练目标进行了详细设计,以确保其在少样本场景下能够有效学习并泛化。
为了进一步分析FKD模块为何能够更有效地消除个体差异,我们从理论和实验两个角度进行了深入探讨。首先,正如之前所提到的,信号频谱中的相位和幅度成分分别对应于高阶语义和低阶统计细节。FKD模块的设计目标是专注于信号在频域中的相关和有意义部分,同时减少或忽略那些对重建任务影响较小的成分。通过这种方式,FKD模块能够有效降低个体差异,提高模型在不同受试者之间的泛化能力。
在实验部分,我们对FKD模块的性能进行了验证,并发现其在减少个体差异方面表现出色。通过引入FKD模块,我们能够在较少的数据量下,实现与完整数据集训练方法相当的图像重建效果。此外,FKD模块还显著提升了模型对新受试者的适应能力,使得在少样本场景下,重建的图像具有更高的语义保真度。这一结果表明,FKD模块在减少个体差异和提升模型泛化能力方面具有重要作用。
在总结部分,本文介绍了MindShot框架,该框架旨在解决数据稀缺和个体差异的问题。首先,MindShot通过多模态对比学习将多个受试者的fMRI数据对齐到一个共享的语义空间,从而获取跨受试者的先验知识。其次,通过引入FKD模块,MindShot能够减少个体差异,提升模型对新受试者的适应能力。最后,在少样本场景下,MindShot能够实现高质量的视觉重建,为实际应用提供了可行的解决方案。
在科学写作中,我们声明并未使用生成式人工智能进行撰写,所有内容均由作者独立完成。此外,我们声明没有已知的财务利益或个人关系可能影响本文所报告的研究成果。本文的研究工作得到了中国国家自然科学基金(62401069)的支持。
综上所述,MindShot框架在少样本脑解码任务中表现出色,能够有效减少数据采集成本,提高模型的泛化能力,并实现高质量的视觉重建。这一成果不仅为脑解码技术的发展提供了新的思路,也为临床应用提供了可行的解决方案。未来,我们计划进一步优化MindShot框架,探索其在更多视觉任务中的应用,并拓展其在不同类型的神经数据中的适用性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号