基于脑活动信号的多模态图像重建新方法：融合视觉特征与语义信息

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Array》：A Novel Approach for Visual and Semantic Image Reconstruction from Brain Activity

【字体：大中小】 时间：2025年10月25日 来源：Array 4.5

编辑推荐：

　　本研究针对fMRI脑活动信号解码中视觉重建与语义信息融合不足的难题，提出了一种融合ResNet101视觉特征解码、BLIP语义提取和LDM语义重建的创新框架。该研究在小型fMRI数据集上实现了视觉重建AlexNet2准确率达98.6%，语义重建CLIP距离降至0.296，显著提升了重建图像的视觉保真度和语义丰富性，为脑机接口和神经解码研究提供了重要技术突破。

当我们闭上眼睛想象一幅画面时，大脑中会浮现出怎样的神经活动？如何通过仪器捕捉这些脑电信号并重建出我们看到的图像？这听起来像是科幻小说中的情节，但正是脑科学和人工智能交叉领域的前沿课题。利用功能磁共振成像（fMRI）技术记录大脑活动，并通过深度学习模型重建视觉图像，已经成为神经科学和计算机视觉领域的重要研究方向。

尽管近年来基于fMRI的脑活动解码研究取得了显著进展，但现有方法仍面临两大挑战：一是重建图像往往缺乏细节纹理和视觉保真度，二是难以有效捕捉和理解图像中的语义内容。传统的重建方法多依赖于预解码的脑特征或单一的视觉重建路径，无法同时保证图像的视觉质量和语义准确性。此外，大多数先进模型需要大规模数据集支持，而fMRI数据采集成本高昂，样本量有限，这进一步制约了重建性能的提升。

为了突破这些瓶颈，来自伊朗阿米尔卡比尔理工大学的研究团队在《Array》期刊上发表了一项创新性研究，提出了一种融合视觉和语义信息的双通路重建框架。该研究首次将ResNet101、BLIP（Bootstrapping Language-Image Pre-training）和LDM（Latent Diffusion Model）等先进模型成功应用于小规模fMRI数据集，在视觉保真度和语义丰富性方面均取得了显著提升。

关键技术方法包括：使用ResNet101提取训练图像的层次视觉特征，结合fMRI数据训练稀疏线性回归解码器；采用BLIP模型提取图像语义特征并生成描述性文本；利用LDM将视觉重建图像与脑活动解码的文本描述相结合进行语义优化重建。研究数据来源于三名健康受试者观看1200张训练图像和50张测试图像时的fMRI记录，涵盖自然图像、人工形状和字母符号等多种视觉刺激。

视觉重建结果显示，基于ResNet101的方法在多个评估指标上均优于先前研究。在像素级相关性方面达到84.4%，AlexNet2准确率高达98.6%。特别值得注意的是，该方法在不同脑区（V1、HVC、LVC、VC）的重建效果均表现稳定，其中视觉皮层（VC）区域效果最佳。对于人工形状、字母符号甚至想象图像的重建，该方法也展现出优越的适应性。

语义重建方面，研究团队通过BLIP模型从脑活动中成功解码出语义特征，并生成多样但语义一致的图像描述。结合LDM进行语义优化后，重建图像的语义指标显著提升，CLIP距离降至0.296，Inception距离为0.728，表明重建图像在保持视觉相似性的同时，更好地捕捉了原始图像的语义内容。

通过系统的消融实验，研究人员验证了视觉和语义信息在重建过程中的互补作用。当仅使用视觉重建结果时，图像缺乏语义准确性；而仅依赖语义条件时，又丢失了细节信息。只有将两者结合，才能实现视觉保真度和语义一致性的最佳平衡。

该研究的创新性在于构建了完整的视觉-语义双通路重建框架，突破了传统方法单一重建路径的局限。特别是在小规模数据集上的成功应用，证明了先进模型经过适当调整后，能够有效适应神经科学研究的实际数据条件。这不仅为脑机接口技术的发展提供了新思路，也为理解人类视觉感知的神经机制提供了重要工具。

研究的成功标志着我们在解读大脑视觉信息方面迈出了关键一步。未来，随着模型优化和数据积累，这项技术有望在医疗诊断（如通过脑活动分析辅助诊断视觉障碍）、人机交互（如意念控制设备）和神经科学研究等领域发挥重要作用，最终实现"读心术"般的精准脑活动解码。

联系信箱：

粤ICP备09063491号

热点排行