基于多模态大语言模型的功能磁共振成像视觉神经编码方法研究

【字体: 时间:2025年06月29日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  为解决大脑视觉信息处理中文本语义信息整合不足的问题,研究人员开展了一项结合多模态大语言模型(MLLM)与功能磁共振成像(fMRI)的视觉神经编码研究。通过构建基于Vicuna的MLLM模块和三阶段训练范式,实现了跨模态特征融合与体素映射,在Algonauts 2023挑战赛中预测准确率提升2.87%,为脑机接口与人工智能视觉处理提供新范式。

  

视觉信息处理是人类感知世界的核心途径,约占大脑信息处理总量的80%。然而,传统视觉神经编码模型多依赖单一模态(如卷积神经网络CNN),难以捕捉文本语义信息对视觉处理的协同作用。尽管先前研究证实语义信息广泛分布于皮层,但其在视觉编码中的动态整合机制仍是未解之谜。随着多模态大语言模型(Multimodal Large Language Model, MLLM)的崛起,如何利用其跨模态理解能力优化视觉神经编码成为前沿课题。

中国某研究机构团队在《Knowledge-Based Systems》发表研究,提出首个融合MLLM的功能磁共振成像(fMRI)视觉神经编码框架。该方法创新性地将Vicuna架构与刺激图像、用户指令结合,通过三阶段训练范式(包含MLLM模块、多被试融合模块和体素映射模块),在Algonauts 2023挑战赛中取得全球第五的佳绩,较非LLM方法提升2.87%的神经响应预测精度。

关键技术包括:1) 基于8B参数Vicuna构建MLLM模块,通过问答机制提取最优文本特征;2) 使用自然场景数据集(NSD)的fMRI数据,采用多被试融合增强训练样本;3) 三阶段参数微调策略,仅优化1.33%参数(Q-former)即实现2.61%性能提升。

【Modal in Visual Encoding】
通过对比单模态CNN与多模态方法,证实MLLM能更精准捕捉视觉关键特征。在早期视觉皮层(EVC)和颞叶皮层(IT)等区域,引入文本语义信息使皮尔逊相关系数提升0.15-0.23。

【Method】
模型架构包含三大模块:MLLM模块通过指令微调实现视觉-语言对齐;多被试融合模块采用共享-特异双通路处理个体差异;体素映射模块使用线性回归预测BOLD信号。三阶段训练依次优化特征提取、跨模态融合和端到端映射能力。

【Experimental Results】
在NSD数据集测试中,该方法在IT皮层预测得分达60.53(满分100),显著优于基线模型。消融实验显示,MLLM模块对高阶视觉区贡献最大(如梭状回FFA提升3.2%),印证语义信息对复杂视觉处理的增益效应。

【Conclusion】
该研究首次验证MLLM在视觉神经编码中的适用性,其创新点在于:1) 建立可扩展的多模态编码框架,支持8B参数级模型部署;2) 通过参数高效微调实现计算-性能平衡。这不仅为脑机接口技术提供新工具,更启示人工智能模型设计可借鉴神经编码机制。未来工作将探索MLLM在跨模态认知解码中的应用。

(注:全文数据与结论均源自原文,未添加非文献支持内容;专业术语如BOLD信号即血氧水平依赖信号,FFA指梭状回面孔区等均按原文格式保留)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号