
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于fMRI的遮挡图像理解数据集OIID:揭示人类非模态补全神经机制及计算机视觉应用
【字体: 大 中 小 】 时间:2025年07月02日 来源:Scientific Data 5.8
编辑推荐:
本研究针对计算机视觉系统难以准确推断遮挡物体隐藏部分的难题,开发了包含65名参与者fMRI响应和行为数据的Occluded Image Interpretation Dataset(OIID)。通过三个遮挡水平(10%/70%/90%)的ISAR图像刺激,首次系统揭示了枕颞顶叶皮层在非模态补全(amodal completion)中的协同作用,为生物启发的计算机视觉模型开发提供了神经科学依据。数据集已开源至OpenNeuro(ds005226)。
在日常生活中,我们看到的物体往往被部分遮挡——从咖啡杯后的手机到树叶间的鸟巢。神奇的是,人类大脑能自动"脑补"这些不完整视觉信息,形成完整感知,这种现象称为非模态补全(amodal completion)。然而当前计算机视觉系统虽能处理可见部分,却难以像人类那样准确推断被遮挡区域。更令人困惑的是,神经科学研究对哪些脑区参与这一过程存在争议:有学者认为初级视觉区(V1/V2)起关键作用,另一些则强调高级视觉区(如颞下回)的贡献。这种分歧可能源于样本量不足(多数研究<20人)和刺激材料差异。
针对这些关键问题,信息工程大学河南省成像与智能处理重点实验室的研究团队在《Scientific Data》发表了突破性研究成果。他们开发了首个系统研究遮挡图像理解的fMRI数据集OIID,包含65名健康参与者(19-26岁)在三种遮挡水平(10%/70%/90%)下的功能磁共振、行为学和心理负荷数据。研究创新性地选用逆合成孔径雷达(ISAR)图像作为刺激材料——这类因目标运动、多普勒效应等导致模糊的航空图像,与日常遮挡场景具有高度相似性。通过严格控制实验设计(每个遮挡水平50张独立图像)和先进数据处理(fMRIPrep 20.2.0预处理),该研究不仅明确了非模态补全的神经基础,更为开发类人视觉的AI系统提供了重要基准。
关键技术方法包括:1)使用3T Siemens Prisma扫描仪采集高分辨率fMRI数据(多波段EPI序列,TR=2000ms);2)基于SynISAR数据集生成三种遮挡水平(10%/70%/90%面积)的300张刺激图像;3)采用事件相关设计记录行为反应(准确率/反应时)和NASA-TLX心理负荷评分;4)通过ciftify工具将数据映射至fsLR标准表面空间进行GLM分析;5)使用FD(framewise displacement)和tSNR(temporal signal-to-noise ratio)指标严格质量控制。
刺激验证
通过计算100张图像在像素级的遮挡概率分布,证实三种遮挡水平的空间分布均无系统性偏差(图4)。10%遮挡主要分散在边缘区域,70%和90%遮挡则形成连续遮挡区,模拟真实场景中不同程度的信息缺失。

数据质量
结构像质量指标CJV(coefficient of joint variation)平均1.21±0.08,SNRGM(灰质信噪比)达7.83±0.45(图5a)。功能像头动控制优异,所有参与者FD(framewise displacement)均值0.15±0.03mm,远低于0.5mm阈值(图5b)。全脑平均tSNR(时域信噪比)74.32±4.47,符合高质量fMRI研究标准(图6)。


神经响应可靠性
测试-重测分析显示,枕叶、颞叶和顶叶皮层BOLD信号具有高度可重复性(Pearson r>0.6)(图7)。这些区域恰好构成"背侧-腹侧视觉通路"协同网络:枕叶负责初级特征提取,颞叶进行物体识别,顶叶调控空间注意——三者共同支撑遮挡条件下的感知补全。

行为学表现
随着遮挡程度增加,识别准确率从10%时的92.4%骤降至90%时的31.7%(F(2,128)=616.95,p<0.001),反应时由687ms延长至1423ms(F(2,128)=244.43,p<0.001),NASA-TLX心理负荷评分从18.2升至34.5(F(2,128)=38.40,p<0.001)(图8)。这种梯度变化证实实验成功模拟了真实场景的认知挑战。

这项研究通过严谨的实验设计和多维数据验证,确立了OIID作为非模态补全研究的黄金标准数据集。其核心价值体现在三个方面:首先,明确了不同遮挡程度下神经机制的动态变化——轻度遮挡(10%)主要激活初级视觉区进行局部特征插补,而重度遮挡(90%)需要前额叶-顶叶网络参与基于先验知识的全局推理。其次,发现的"枕-颞-顶"协同网络为开发神经形态算法提供了生物依据,特别是对自动驾驶、医学影像分析等需要处理遮挡场景的AI系统具有启发意义。最后,开源的行为-fMRI多模态数据(OpenNeuro ds005226)支持后续研究进行跨模态分析,推动计算机视觉与认知神经科学的深度融合。
研究也存在若干局限:样本年龄范围较窄(19-26岁),未来可扩展至儿童和老年人群体;ISAR图像虽具代表性,但与自然遮挡场景存在差异。这些不足为后续研究指明了方向——通过纳入更丰富刺激材料和更大样本人群,进一步揭示非模态补全的发育轨迹和个体差异。总体而言,该工作架起了连接人类认知与机器视觉的重要桥梁,为发展新一代类脑视觉算法奠定了坚实基础。
生物通微信公众号
知名企业招聘