视觉皮层与深度人工神经网络中的动作地形图研究
《Nature Communications》:Investigating action topography in visual cortex and deep artificial neural networks
【字体:
大
中
小
】
时间:2025年12月22日
来源:Nature Communications 15.7
编辑推荐:
为解决视觉皮层中物体类别选择性区域的组织原则问题,研究人员开展了一项关于动作维度如何塑造视觉皮层地形图的研究。他们通过fMRI实验发现,左侧外侧枕颞皮层(LOTC)存在一个基于动作属性的地形梯度,而腹侧枕颞皮层(VOTC)则主要由生命性(animacy)主导。研究还表明,尽管地形深度人工神经网络(TDANNs)能复现生命性组织,却无法捕捉到这种基于动作的地形图。该研究揭示了动作是视觉皮层组织的一个基本维度,并指出了当前计算模型与生物系统之间的关键差异。
我们的大脑如何识别和区分成千上万种物体?这背后是视觉皮层中一套精密的“地图”在运作。在高级视觉皮层,尤其是枕颞皮层(Occipitotemporal Cortex, OTC),存在着对特定类别(如面孔、身体、工具、场景)具有选择性反应的区域。这些区域并非随机分布,而是遵循着某种空间组织原则,即地形图(Topography)。以往的研究提出了多种解释这种组织的维度,从低级的视觉特征(如离心率)到高级的语义特征(如生命性(Animacy)和真实世界大小)。然而,一个关键问题仍然存在:除了这些维度,是否还有其他更根本的原则在塑造着视觉皮层的地形图?
特别是,在左侧外侧枕颞皮层(Lateral Occipitotemporal Cortex, LOTC),研究者们观察到手和工具这两种看似截然不同的类别(一个是生命体的一部分,一个是无生命的物体)的神经反应存在显著的重叠。这种重叠很难用生命性或物体大小等维度来解释,因为手和工具在这些维度上差异巨大。这强烈暗示,另一个重要的维度——动作(Action),可能在塑造LOTC的组织中扮演着核心角色。动作维度不仅关乎物体是否可以被抓握(Graspability),还关乎物体本身是否作为动作的执行器(Action-Effector),例如手本身就是执行动作的器官,而工具则是手的延伸,被用来直接作用于其他物体。
为了验证这一假说,由Davide Cortinovis、Stefania Bracci等人组成的研究团队在《Nature Communications》上发表了一项研究。他们通过结合功能磁共振成像(fMRI)和深度人工神经网络(Deep Artificial Neural Networks, DANNs)技术,系统地探究了动作属性如何塑造视觉皮层的地形图,并评估了当前最先进的生物启发式计算模型在多大程度上能够复现这种组织。
为了回答研究问题,研究人员设计了一套精心控制的刺激集,包含6个类别:身体部分(手、无头身体、面孔)和无生命物体(工具、可操纵物体、不可操纵物体)。这些类别在生命性和动作属性(如是否作为动作执行器、是否可抓握)上存在系统性的变化。他们招募了19名健康参与者,在fMRI扫描仪中观看这些刺激图像,并记录了其大脑活动。在数据分析方面,研究团队采用了多种方法,包括单变量分析(如功能图谱和重叠分析)来揭示激活的空间分布,以及多变量分析(如表征相似性分析(Representational Similarity Analysis, RSA))来探究神经表征的内容。此外,他们还训练和测试了多种深度人工神经网络模型,包括标准的目标识别网络、动作识别网络以及具有生物启发式地形约束的地形深度人工神经网络(Topographic Deep Artificial Neural Networks, TDANNs),以比较人工模型与人类大脑在表征组织上的异同。
动作属性在腹侧和外侧枕颞皮层中差异性地塑造物体地形图
研究人员首先通过全脑分析,揭示了腹侧枕颞皮层(Ventral Occipitotemporal Cortex, VOTC)和外侧枕颞皮层(LOTC)在物体表征组织上的根本性分离。在VOTC,激活模式严格遵循生命性维度,生命体(身体部分)和无生命物体形成了清晰分离的集群,没有重叠。然而,在左侧LOTC,情况则截然不同。研究者观察到了一个基于动作属性的地形梯度:从背侧-后部到腹侧-前部,激活模式从身体、手、工具到可操纵物体发生了平滑的过渡。其中,具有最高动作属性的类别——手和工具,其激活区域表现出最大程度的重叠。这种组织模式在个体水平上同样存在,且无法用物体大小或形状的差异来解释。
地形深度人工神经网络成功模拟了腹侧枕颞皮层的生命性划分,但未能复现外侧枕颞皮层的基于动作的地形图
为了探究这种基于动作的地形组织是否能够通过计算模型自发涌现,研究人员测试了地形深度人工神经网络(TDANNs)。这些模型在训练过程中加入了模拟大脑皮层布线最小化原则的空间约束,旨在自发形成地形组织。结果显示,TDANNs确实能够复现VOTC中观察到的生命性划分,即生命体和无生命物体的表征形成了分离的集群。然而,这些模型完全未能捕捉到LOTC中观察到的基于动作的地形图。在TDANNs中,手和工具并未激活相同的神经元,不同动作属性的物体类别之间也没有表现出平滑的重叠或梯度变化。这表明,尽管TDANNs在模拟视觉皮层某些方面取得了成功,但它们仍然缺乏对动作这一关键维度的表征。
为了更深入地理解驱动VOTC和LOTC物体空间组织的潜在维度,研究者进行了表征相似性分析(RSA)。他们构建了三个模型来预测神经活动模式:动作模型、生命性模型和形状模型。分析发现,生命性维度在整个枕颞皮层都得到了强烈表征,尤其是在VOTC达到了噪声上限。与此相反,动作维度在LOTC达到了其最高峰,而在VOTC则处于最低点。有趣的是,形状维度的表征趋势与动作维度高度相关,表明在LOTC,对物体动作属性的表征与其形状信息紧密交织在一起。这一发现揭示了LOTC和VOTC在表征内容上的根本差异:VOTC主要表征生命性,而LOTC则主要表征与动作相关的属性,并且这种表征与物体的形状信息密切相关。
外侧枕颞皮层表征物体的动作执行器和(较小程度上)抓握属性
最后,研究者进一步剖析了构成LOTC物体空间的具体动作相关属性。他们计算了两个指标:动作执行器指数(Action-Effector Index)和抓握指数(Grasp Index)。动作执行器指数衡量的是身体部分与工具(作为动作执行器)的关联程度,而抓握指数衡量的是身体部分与可抓握物体(包括工具和可操纵物体)的关联程度。结果显示,驱动LOTC物体空间组织的主要因素是动作执行器属性。具体而言,手与工具(两者都是动作执行器)的关联最强,而身体和面孔则没有表现出这种模式。抓握属性虽然也起到了一定作用,但其效应相对较弱。这一分析进一步证实,LOTC的核心功能是表征物体的动作执行器属性,这解释了为什么手和工具在该区域具有如此高的神经重叠。
这项研究通过严谨的实验设计和多层次的分析,有力地证明了动作是塑造人类视觉皮层地形组织的一个基本维度。研究揭示了腹侧和外侧枕颞皮层在功能上的根本性分离:腹侧流主要处理物体的生命性信息,而外侧流则专门处理与动作相关的属性,特别是物体作为动作执行器的功能。这一发现不仅深化了我们对视觉皮层组织原则的理解,也为解释手和工具在LOTC的神经重叠提供了统一的理论框架。
更重要的是,该研究通过将人类大脑与深度人工神经网络进行直接比较,揭示了当前最先进的生物启发式模型在模拟视觉皮层功能方面存在的关键局限。尽管这些模型能够复现生命性等维度,但它们完全缺乏对动作维度的表征。这一“动作鸿沟”表明,仅仅通过优化视觉分类任务和引入空间约束,还不足以让模型发展出与人类大脑完全对齐的表征。未来的计算模型可能需要融入更丰富的任务目标,例如在具身环境中进行主动交互学习,才能真正捕捉到视觉皮层中与行为相关的复杂表征,从而更全面地模拟人类视觉系统的功能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号