Mind2Word：基于伪词映射的通用视觉神经表征框架实现高质量视频重建

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月26日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　研究人员针对fMRI-视频配对数据稀缺和模态异质性难题，提出两阶段框架Mind2Word：通过Mind-Centric编码器将fMRI信号转化为伪词嵌入文本空间，结合视频扩散模型实现跨被试高质量视频重建，SSIM提升38%，突破"单被试单模型"限制，为脑机接口提供新范式。

视觉信息如何在大脑中编码并重建，一直是认知科学和人工智能交叉领域的核心问题。尽管近年来基于功能磁共振成像(fMRI)的静态图像重建取得显著进展，但动态视频重建仍面临两大"卡脖子"难题：fMRI的低时间分辨率（0.5Hz）与视频高帧率（30fps）的鸿沟，以及由血流动力学响应(HR)导致的个体化时间延迟。更棘手的是，现有三大fMRI-视频基准数据集（CC2017、BMD和Liet al.）平均仅含3-10名被试数据，样本量不足自然场景数据集(NSD)的1%，导致模型易将稀疏语义簇误判为噪声。

传统解决方案如掩码脑建模(MBM)和多模态对比学习，虽通过海量fMRI预训练提升特征提取能力，却忽视了fMRI与监督模态（图像/文本）间的本质差异：fMRI编码的是连续空间多模态信号，而文本嵌入基于离散符号序列，图像嵌入则源于像素数据。这种"模态异质性"使得现有方法难以建立统一的表征空间。

针对这些挑战，国内研究团队开发了创新性两阶段框架Mind2Word。该研究首次将文本反转技术引入脑解码领域，通过提出的Mind-Centric(MC)编码器，利用脑-文本模态转换器(B2T-MT)将fMRI信号映射为伪词，在CLIP文本嵌入空间进行优化，巧妙规避了fMRI预训练需求。第二阶段结合潜在扩散模型，不仅实现SSIM指标38%的提升，更开创性地支持单模型跨被试重建和艺术化视频生成。

关键技术包括：1）基于B2T-MT的伪词生成模块，利用CC2017等数据集的4,320个视频-fMRI对进行端到端训练；2）文本空间优化策略，通过CLIP文本编码器的先验知识增强表征泛化性；3）视频潜在扩散模型，将伪词与风格提示词结合生成1080P视频。实验涉及CC2017、BMD和Liet al.三大基准，采用留一法交叉验证。

主要研究发现：
跨模态表征学习
MC编码器生成的伪词与真实文本嵌入的余弦相似度达0.82，显著高于对比方法MBM的0.61，证实其有效缩小了模态鸿沟。

重建质量突破
在CC2017数据集上，Mind2Word的SSIM值达0.781±0.012，较Foscoet al.方法提升29%；BMD数据集上更实现38%的性能飞跃，重建视频可清晰辨识运动轨迹和物体细节。

泛化能力验证
单一Mind2Word模型在未见过的被试数据上，SSIM保持0.723±0.015，打破传统"per-subject-per-model"范式，为临床BCI应用奠定基础。

艺术化生成拓展
通过将伪词与"梵高风格"等提示词结合，无需额外训练即可生成具有艺术特效的思维视频，拓展了应用场景。

这项发表于《Expert Systems with Applications》的研究，其核心突破在于建立了"fMRI-伪词-视频"的新型解码路径。相比需要百万级fMRI样本预训练的传统方法，Mind2Word仅需数千样本即可实现卓越性能，这对fMRI扫描成本高昂的临床应用尤为重要。更深远的意义在于，该框架证实了自然语言与神经表征的深层关联，为探索大脑语义图谱提供了新工具。未来或可应用于意识障碍患者的视觉沟通系统，以及神经退行性疾病的早期诊断标记物开发。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号