基于多模态神经表征对齐的CORnet-fMRI优化模型:提升视觉神经网络与人类大脑的相似性

【字体: 时间:2025年04月16日 来源:Cognitive Neurodynamics 3.1

编辑推荐:

  编辑推荐:本研究针对深度卷积神经网络(DCNNs)与人类视觉系统间的表征差异问题,通过创新性多层级编码对齐框架(ReAlnet-fMRI),利用人类fMRI数据优化CORnet模型。结果表明,经fMRI信号训练的模型在跨被试(fMRI/EEG)和跨模态评估中均表现出更强的神经对齐特性,为构建更类脑的视觉计算模型提供了新范式。

  

在人工智能与认知神经科学的交叉领域,深度卷积神经网络(DCNNs)虽在物体识别任务中表现卓越,但其与人类视觉系统的本质差异始终是学界关注的焦点。当前最先进的视觉模型CORnet虽被认为具有类脑特性,但其仅基于图像数据训练的本质限制了对人类神经表征的精确模拟。这一局限引出了核心科学问题:能否通过整合人类神经活动数据,使计算机视觉模型真正"学会"人脑处理视觉信息的方式?

针对这一挑战,研究人员创新性地提出了ReAlnet-fMRI模型架构。该研究采用多层级编码对齐框架,将功能磁共振成像(fMRI)信号作为监督信号,通过同步优化分类损失(LC)和生成损失(LG),使模型在保持物体识别能力的同时学习人类视觉皮层的神经表征模式。特别值得注意的是,该方法突破了传统单层-单脑区对齐的局限,通过构建包含Enc-V1至Enc-IT的四层级联编码器,实现了模型多层特征与全视觉皮层信号的动态映射。

关键技术方法包括:1) 使用Shen fMRI数据集(3名被试的1,200张自然图像响应数据)进行模型训练,通过PCA降维至1,024特征维度;2) 建立包含对比损失的生成损失函数(LG=MSE+1-ρ(Si,?i));3) 采用跨模态验证策略,在Horikawa fMRI数据集(5名被试)和THINGS EEG2数据集(10名被试)上评估模型泛化能力;4) 基于THINGS的49维物体空间进行内部表征分析。

研究结果部分揭示了一系列重要发现:

"Within-modality & within-subject模型-fMRI相似性"显示,在自然图像测试集上,ReAlnet-fMRI相较于原始CORnet在V1-V4和LOC区域的表征相似性平均提升10%,最高达43%。值得注意的是,这种优势不仅限于自然图像,在人工形状和字母识别任务中也得到保持,证实了学习效果的泛化性。

"Within-modality & across-subject模型-fMRI相似性"通过Horikawa数据集验证表明,基于个体fMRI数据训练的模型能够捕捉跨被试共享的神经表征模式。特别在早期视觉区域V1,相似性提升最为显著,暗示低级视觉特征的编码具有更强的个体间一致性。

"Across-modality & across-subject模型-EEG相似性"结果尤为引人注目。尽管仅用fMRI信号训练,ReAlnet-fMRI在EEG时间动力学表征上也展现出显著优势,特别是在高层模型层(V4和IT)与晚期EEG成分(>100ms)的对应关系上。这一发现强有力地证明,模型学习到的是跨模态的通用神经表征原则,而非特定于fMRI的信号特征。

"Internal representational analysis"通过THINGS的49维物体空间分析揭示了关键发现:与CORnet相比,ReAlnet-fMRI显著增强了对食物相关(提升37%)、人工/硬质物体(提升29%)和电子科技产品(提升25%)等维度的编码强度,而在动物相关维度上编码减弱。这些差异与人类fMRI研究发现的视觉皮层特征选择模式高度一致。

在讨论环节,研究者深入剖析了多模态验证结果差异的潜在机制:fMRI数据中早期视觉区更多体素可能引导模型侧重低级特征学习,而EEG对高层语义信息的敏感性则体现在模型高层表征优势上。研究同时指出,当前ImageNet任务的局限性(如缺乏细粒度分类要求)可能是CORnet在食物等维度编码不足的原因,这为未来设计更符合真实视觉体验的训练任务提供了方向。

该研究的理论价值体现在三个方面:首先,提出的多层级对齐框架为神经数据驱动的模型优化提供了通用范式;其次,证实了跨模态神经表征学习的可行性;最后,通过模型内部表征分析,建立了DCNNs与人类视觉系统在物体维度编码上的定量对比基准。在应用层面,ReAlnet-fMRI不仅可作为研究视觉认知的更强计算工具,其架构思路还可拓展至语言、听觉等模态的建模。

研究也坦诚当前局限:图像标签不匹配导致的分类性能未提升,以及小样本神经数据对优化效果的限制。未来工作将探索自监督学习等方案来突破这些瓶颈。值得期待的是,这种神经对齐思路可能带来模型对抗鲁棒性等实用性能的提升,这已在相关研究中初现端倪。

这项发表于《Cognitive Neurodynamics》的研究,通过严谨的多模态验证和深入的表征分析,为构建真正类脑的视觉模型提供了重要方法论突破。其创新价值不仅在于技术框架的提出,更在于展示了神经科学与人工智能深度融合的可能性——当计算机模型开始"看见"人脑所看见的世界时,我们对智能本质的理解也将迈入新纪元。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号