
-
生物通官微
陪你抓住生命科技
跳动的脉搏
Mind2Word:基于伪词映射的通用视觉神经表征框架实现高质量视频重建
【字体: 大 中 小 】 时间:2025年07月26日 来源:Expert Systems with Applications 7.5
编辑推荐:
研究人员针对fMRI-视频配对数据稀缺和模态异质性难题,提出两阶段框架Mind2Word:通过Mind-Centric编码器将fMRI信号转化为伪词嵌入文本空间,结合视频扩散模型实现跨被试高质量视频重建,SSIM提升38%,突破"单被试单模型"限制,为脑机接口提供新范式。
视觉信息如何在大脑中编码并重建,一直是认知科学和人工智能交叉领域的核心问题。尽管近年来基于功能磁共振成像(fMRI)的静态图像重建取得显著进展,但动态视频重建仍面临两大"卡脖子"难题:fMRI的低时间分辨率(0.5Hz)与视频高帧率(30fps)的鸿沟,以及由血流动力学响应(HR)导致的个体化时间延迟。更棘手的是,现有三大fMRI-视频基准数据集(CC2017、BMD和Liet al.)平均仅含3-10名被试数据,样本量不足自然场景数据集(NSD)的1%,导致模型易将稀疏语义簇误判为噪声。
传统解决方案如掩码脑建模(MBM)和多模态对比学习,虽通过海量fMRI预训练提升特征提取能力,却忽视了fMRI与监督模态(图像/文本)间的本质差异:fMRI编码的是连续空间多模态信号,而文本嵌入基于离散符号序列,图像嵌入则源于像素数据。这种"模态异质性"使得现有方法难以建立统一的表征空间。
针对这些挑战,国内研究团队开发了创新性两阶段框架Mind2Word。该研究首次将文本反转技术引入脑解码领域,通过提出的Mind-Centric(MC)编码器,利用脑-文本模态转换器(B2T-MT)将fMRI信号映射为伪词,在CLIP文本嵌入空间进行优化,巧妙规避了fMRI预训练需求。第二阶段结合潜在扩散模型,不仅实现SSIM指标38%的提升,更开创性地支持单模型跨被试重建和艺术化视频生成。
关键技术包括:1)基于B2T-MT的伪词生成模块,利用CC2017等数据集的4,320个视频-fMRI对进行端到端训练;2)文本空间优化策略,通过CLIP文本编码器的先验知识增强表征泛化性;3)视频潜在扩散模型,将伪词与风格提示词结合生成1080P视频。实验涉及CC2017、BMD和Liet al.三大基准,采用留一法交叉验证。
主要研究发现:
MC编码器生成的伪词与真实文本嵌入的余弦相似度达0.82,显著高于对比方法MBM的0.61,证实其有效缩小了模态鸿沟。
在CC2017数据集上,Mind2Word的SSIM值达0.781±0.012,较Foscoet al.方法提升29%;BMD数据集上更实现38%的性能飞跃,重建视频可清晰辨识运动轨迹和物体细节。
单一Mind2Word模型在未见过的被试数据上,SSIM保持0.723±0.015,打破传统"per-subject-per-model"范式,为临床BCI应用奠定基础。
通过将伪词与"梵高风格"等提示词结合,无需额外训练即可生成具有艺术特效的思维视频,拓展了应用场景。
这项发表于《Expert Systems with Applications》的研究,其核心突破在于建立了"fMRI-伪词-视频"的新型解码路径。相比需要百万级fMRI样本预训练的传统方法,Mind2Word仅需数千样本即可实现卓越性能,这对fMRI扫描成本高昂的临床应用尤为重要。更深远的意义在于,该框架证实了自然语言与神经表征的深层关联,为探索大脑语义图谱提供了新工具。未来或可应用于意识障碍患者的视觉沟通系统,以及神经退行性疾病的早期诊断标记物开发。
生物通微信公众号
知名企业招聘