基于脑活动信号的多模态图像重建新方法:融合视觉特征与语义信息

《Array》:A Novel Approach for Visual and Semantic Image Reconstruction from Brain Activity

【字体: 时间:2025年10月25日 来源:Array 4.5

编辑推荐:

  本研究针对fMRI脑活动信号解码中视觉重建与语义信息融合不足的难题,提出了一种融合ResNet101视觉特征解码、BLIP语义提取和LDM语义重建的创新框架。该研究在小型fMRI数据集上实现了视觉重建AlexNet2准确率达98.6%,语义重建CLIP距离降至0.296,显著提升了重建图像的视觉保真度和语义丰富性,为脑机接口和神经解码研究提供了重要技术突破。

  
当我们闭上眼睛想象一幅画面时,大脑中会浮现出怎样的神经活动?如何通过仪器捕捉这些脑电信号并重建出我们看到的图像?这听起来像是科幻小说中的情节,但正是脑科学和人工智能交叉领域的前沿课题。利用功能磁共振成像(fMRI)技术记录大脑活动,并通过深度学习模型重建视觉图像,已经成为神经科学和计算机视觉领域的重要研究方向。
尽管近年来基于fMRI的脑活动解码研究取得了显著进展,但现有方法仍面临两大挑战:一是重建图像往往缺乏细节纹理和视觉保真度,二是难以有效捕捉和理解图像中的语义内容。传统的重建方法多依赖于预解码的脑特征或单一的视觉重建路径,无法同时保证图像的视觉质量和语义准确性。此外,大多数先进模型需要大规模数据集支持,而fMRI数据采集成本高昂,样本量有限,这进一步制约了重建性能的提升。
为了突破这些瓶颈,来自伊朗阿米尔卡比尔理工大学的研究团队在《Array》期刊上发表了一项创新性研究,提出了一种融合视觉和语义信息的双通路重建框架。该研究首次将ResNet101、BLIP(Bootstrapping Language-Image Pre-training)和LDM(Latent Diffusion Model)等先进模型成功应用于小规模fMRI数据集,在视觉保真度和语义丰富性方面均取得了显著提升。
关键技术方法包括:使用ResNet101提取训练图像的层次视觉特征,结合fMRI数据训练稀疏线性回归解码器;采用BLIP模型提取图像语义特征并生成描述性文本;利用LDM将视觉重建图像与脑活动解码的文本描述相结合进行语义优化重建。研究数据来源于三名健康受试者观看1200张训练图像和50张测试图像时的fMRI记录,涵盖自然图像、人工形状和字母符号等多种视觉刺激。
视觉重建结果显示,基于ResNet101的方法在多个评估指标上均优于先前研究。在像素级相关性方面达到84.4%,AlexNet2准确率高达98.6%。特别值得注意的是,该方法在不同脑区(V1、HVC、LVC、VC)的重建效果均表现稳定,其中视觉皮层(VC)区域效果最佳。对于人工形状、字母符号甚至想象图像的重建,该方法也展现出优越的适应性。
语义重建方面,研究团队通过BLIP模型从脑活动中成功解码出语义特征,并生成多样但语义一致的图像描述。结合LDM进行语义优化后,重建图像的语义指标显著提升,CLIP距离降至0.296,Inception距离为0.728,表明重建图像在保持视觉相似性的同时,更好地捕捉了原始图像的语义内容。
通过系统的消融实验,研究人员验证了视觉和语义信息在重建过程中的互补作用。当仅使用视觉重建结果时,图像缺乏语义准确性;而仅依赖语义条件时,又丢失了细节信息。只有将两者结合,才能实现视觉保真度和语义一致性的最佳平衡。
该研究的创新性在于构建了完整的视觉-语义双通路重建框架,突破了传统方法单一重建路径的局限。特别是在小规模数据集上的成功应用,证明了先进模型经过适当调整后,能够有效适应神经科学研究的实际数据条件。这不仅为脑机接口技术的发展提供了新思路,也为理解人类视觉感知的神经机制提供了重要工具。
研究的成功标志着我们在解读大脑视觉信息方面迈出了关键一步。未来,随着模型优化和数据积累,这项技术有望在医疗诊断(如通过脑活动分析辅助诊断视觉障碍)、人机交互(如意念控制设备)和神经科学研究等领域发挥重要作用,最终实现"读心术"般的精准脑活动解码。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号