Mind2Word:基于伪词映射的通用视觉神经表征框架实现高质量视频重建

【字体: 时间:2025年07月26日 来源:Expert Systems with Applications 7.5

编辑推荐:

  研究人员针对fMRI-视频配对数据稀缺和模态异质性难题,提出两阶段框架Mind2Word:通过Mind-Centric编码器将fMRI信号转化为伪词嵌入文本空间,结合视频扩散模型实现跨被试高质量视频重建,SSIM提升38%,突破"单被试单模型"限制,为脑机接口提供新范式。

  

视觉信息如何在大脑中编码并重建,一直是认知科学和人工智能交叉领域的核心问题。尽管近年来基于功能磁共振成像(fMRI)的静态图像重建取得显著进展,但动态视频重建仍面临两大"卡脖子"难题:fMRI的低时间分辨率(0.5Hz)与视频高帧率(30fps)的鸿沟,以及由血流动力学响应(HR)导致的个体化时间延迟。更棘手的是,现有三大fMRI-视频基准数据集(CC2017、BMD和Liet al.)平均仅含3-10名被试数据,样本量不足自然场景数据集(NSD)的1%,导致模型易将稀疏语义簇误判为噪声。

传统解决方案如掩码脑建模(MBM)和多模态对比学习,虽通过海量fMRI预训练提升特征提取能力,却忽视了fMRI与监督模态(图像/文本)间的本质差异:fMRI编码的是连续空间多模态信号,而文本嵌入基于离散符号序列,图像嵌入则源于像素数据。这种"模态异质性"使得现有方法难以建立统一的表征空间。

针对这些挑战,国内研究团队开发了创新性两阶段框架Mind2Word。该研究首次将文本反转技术引入脑解码领域,通过提出的Mind-Centric(MC)编码器,利用脑-文本模态转换器(B2T-MT)将fMRI信号映射为伪词,在CLIP文本嵌入空间进行优化,巧妙规避了fMRI预训练需求。第二阶段结合潜在扩散模型,不仅实现SSIM指标38%的提升,更开创性地支持单模型跨被试重建和艺术化视频生成。

关键技术包括:1)基于B2T-MT的伪词生成模块,利用CC2017等数据集的4,320个视频-fMRI对进行端到端训练;2)文本空间优化策略,通过CLIP文本编码器的先验知识增强表征泛化性;3)视频潜在扩散模型,将伪词与风格提示词结合生成1080P视频。实验涉及CC2017、BMD和Liet al.三大基准,采用留一法交叉验证。

主要研究发现:
跨模态表征学习
MC编码器生成的伪词与真实文本嵌入的余弦相似度达0.82,显著高于对比方法MBM的0.61,证实其有效缩小了模态鸿沟。

重建质量突破
在CC2017数据集上,Mind2Word的SSIM值达0.781±0.012,较Foscoet al.方法提升29%;BMD数据集上更实现38%的性能飞跃,重建视频可清晰辨识运动轨迹和物体细节。

泛化能力验证
单一Mind2Word模型在未见过的被试数据上,SSIM保持0.723±0.015,打破传统"per-subject-per-model"范式,为临床BCI应用奠定基础。

艺术化生成拓展
通过将伪词与"梵高风格"等提示词结合,无需额外训练即可生成具有艺术特效的思维视频,拓展了应用场景。

这项发表于《Expert Systems with Applications》的研究,其核心突破在于建立了"fMRI-伪词-视频"的新型解码路径。相比需要百万级fMRI样本预训练的传统方法,Mind2Word仅需数千样本即可实现卓越性能,这对fMRI扫描成本高昂的临床应用尤为重要。更深远的意义在于,该框架证实了自然语言与神经表征的深层关联,为探索大脑语义图谱提供了新工具。未来或可应用于意识障碍患者的视觉沟通系统,以及神经退行性疾病的早期诊断标记物开发。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号