视觉运动感知的分层向量分析:从贝叶斯推理到神经回路的计算机制

【字体: 时间:2025年09月28日 来源:Annual Review of Vision Science 5.5

编辑推荐:

  本综述系统阐述了视觉系统解析复杂运动场景的分层计算策略(即分层向量分析),重点介绍了基于贝叶斯推理(Bayesian inference)的计算模型如何将运动模式分解为有意义的相对运动组分,并探讨了其潜在的神经机制(如MT/MST脑区)。文章指出,该研究领域为理解高级认知功能(如组合性compositionality)的神经实现提供了可驾驭的模型系统。

  
视觉场景通常充满了密集分层且复杂的运动模式。运动解析(motion parsing)的核心问题,就是将这些模式分解为对感知和行为有意义的更简单组分。心理物理学证据表明,大脑会将运动模式分解为一系列相对运动向量的层次结构。近年来的计算模型为这种解析策略的算法和神经基础提供了新的见解。
经典的分层运动感知研究
Gunnar Johansson在其开创性研究中,通过巧妙的运动点阵配置揭示了这种分层解析策略,他称之为知觉向量分析(perceptual vector analysis)。在一个经典的三点配置中,一个中心点做对角振荡,而两个侧点做水平振荡。观察者通常感知到的是中心点在垂直振荡,同时嵌套在一个水平振荡的参考系内。Johansson认为,这种知觉现象源于视觉系统将构型运动分解为两个向量(一个水平,一个垂直)的和。
另一个经典例子是Duncker轮(Duncker wheel)。当在黑暗中观察一个附着在轮缘上的光点时,它看起来做摆线运动;然而,如果在轮毂处增加一个光点,轮缘上的光点则会被感知为围绕一个水平平移的参考系旋转。Duncker将此称为诱导运动(induced motion),即背景引发的运动感知变化。类似的现象还有同时性速度对比(simultaneous velocity contrast)和运动透明度(motion transparency)。
这些例子的共同见解是,视觉系统可以根据上下文以不同的方式解析相同的运动模式。解析可以是简单的分离,也可以是层次化的组织。Johansson的提案虽然是开创性的,但仍然是非形式化的。在没有形式化模型的情况下,我们并不清楚大脑如何解决解析问题固有的模糊性:任何给定的运动配置都可能允许多种向量分解。
现代理论与新实验检验
感知的计算模型已经从Johansson时代显著进化。一个庞大的模型类别源于一个统一的思想:大脑以概率方式反演其感觉的原因。这种反演通过应用贝叶斯规则(Bayes’ rule)来完成。
为了将贝叶斯推理应用于分层运动问题,需要将假设空间定义为运动树(motion trees)的空间。树中的每个节点代表一个运动向量,每条边对应一个层次关系。一个物体或部件的观测运动,是沿着从根节点(背景)到该物体节点路径上所有运动向量的总和。每个运动向量由方向和幅度(运动强度)参数化;强度为0意味着该特定成分不存在。
这种表示使得复杂运动能够由更简单运动的组合来表示。其中的推断问题要复杂得多,因为视觉系统需要联合推断运动配置的结构(运动树)和每个节点的运动向量。为了约束巨大的假设空间,研究者假设了一个优先选择较小树的运动树先验。只有在更复杂的树与观测到的运动模式强烈匹配时,才会被优先选择。这种先验可以理解为格式塔律(Gestalt law of Pr?gnanz)在运动模式上的形式化:好的模式是那些可以用小运动树描述的模式。
结构推断允许模型解释不同结构解释之间的转换,例如,随着叠加点阵方向差增大,从平均到透明度的感知转换。使用更复杂的五点配置,证明该模型可以准确预测人类关于点之间层次关系的判断。
重要的是,运动的层次化表征对于理解相关知觉现象至关重要。一些替代的分解方法,如主成分分析或非负矩阵分解,无法解释人类受试者如何报告点运动之间的层次关系,因为这些模型根本不表示此类关系。
后续研究使用了更严格控制的刺激设计(如圆形运动显示)来研究结构推断。通过将点运动显示在圆形轨道上,可以精确匹配不同运动结构下物体速度的联合分布,从而消除空间排列和低水平刺激统计等潜在混杂因素。研究表明,贝叶斯向量分析模型可以准确预测人类的结构推断,包括对高度模糊显示的判断,并能预测人类的信心报告。
其他研究则关注人们如何利用分层运动结构来指导物体感知的其他方面。研究表明,与独立移动的点相比,呈现分层结构化的显示时,人类在多物体追踪(multiple object tracking)和运动预测方面的表现要好得多。这种性能改进伴随着相对运动方向的系统误差,分层结构提供了一个既有用又会导致系统错误的归纳偏差。
另有研究使用同心圆环排列的随机点运动图(RDK)提供了另一条证据。在两级层次结构(中心RDK加一个周围环)中,当方向差较小时,中心点的感知运动方向会偏向周围环;当方向差较大时,则会产生排斥效应。这一结果与一个贝叶斯向量分析模型相符,该模型推断存在单一运动源,直到有足够强的证据支持多源结构。排斥效应源于推断中心和周国都相对于一个全局运动源(如自我运动)运动。
迄今为止回顾的研究都依赖于运动成分数量较少的相对简单刺激。自然场景要复杂得多,因此有必要考虑基于简单刺激的理论主张的普适性。有研究通过让受试者调整匹配噪声刺激的方向和速度,使其与电影帧中探测位置的流(flow)相一致,调查了自然主义电影中的运动感知。他们发现,受试者的流判断通常与真实情况一致,但有时也会做出与向量分析一致的错误,例如因背景运动而感知到虚幻的物体运动。
这些研究提出的一个重要问题是,大脑如何能够以高效的在线方式执行所需的计算。这个问题通过推导一个在线期望最大化(expectation–maximization)算法得到了解决,该算法可以推断运动树和速度向量。该模型既能捕捉上述经典实验结果,也能捕捉近期圆形运动显示的实验结果。研究还展示了该算法如何在一个具有线性和二次神经元相互作用的生物似真循环神经网络中实现。
寻找神经机制
解析多重运动的问题长期困扰着计算神经科学家。这项工作主要集中于两种情况:透明和遮挡下的多物体运动解析,以及自我运动与物体运动的解析。
运动处理的最早皮层阶段发生在初级视觉皮层(V1),然后是中颞区(MT,也称为V5)。在响应透明运动刺激时,方向选择性的V1神经元会因其偏好方向而被激活,而MT神经元除了被其偏好方向激活外,还会受到透明性的抑制。有研究利用在局部配对相反方向运动的点会消除运动透明感这一事实,发现V1神经元无法区分透明(未配对)和非透明(配对)条件,而MT神经元可以。这些发现与V1神经元提取局部运动能量信号,然后通过减性或除性抑制在MT中转换为相对局部速度信号的模型一致。
皮层的后期运动处理阶段参与从局部速度信号中提取额外信息。特别是,内上颞区(MST)主要分为一个腹外侧部分(MSTl),负责维持运动依赖的平滑追踪眼动,和一个背内侧部分(MSTd),负责从光流和前庭信号中提取前进方向(heading direction)。我们关注MSTd,因为其功能与运动向量分析问题最相关。核心问题是,自然光流模式是观察者自我运动与多个物体运动的复杂组合。有提案认为,MSTd通过估计每个物体相对于观察者的运动来解决这个解析问题。其模型的输入是由MT计算出的局部速度信号。MSTd被建模为一个自动编码器(autoencoder),经过训练可通过一个隐藏层瓶颈重构输入。通过结合隐藏层的稀疏正则化和输出层的除性归一化,该模型产生的输出反映了局部速度信号对运动源的分配。
有模型提出,从MST到MT的反馈连接有助于MT纠正其初始速度估计。虽然解剖学证据支持这一反馈通路,但其功能意义仍待探索。另一种相关方法训练自动编码器学习运动场景下的流场,但表明无需模拟MST的反馈即可准确预测MT活动。
有模型整合了其中一些思想,开发了一个MT/MST回路中的分层运动解析模型。该模型是推测性的,因为尚无对Johansson和Duncker显示或第3节中相关显示的神经生理学研究。根据该模型,MT执行两个处理阶段(在不同皮层层):深度运动边界选择,随后是长程运动分组。第二阶段与MST中的竞争性方向分组过程进行循环交互。从MST到MT的反馈增强了编码获胜方向的MT细胞的活动,并抑制了其他细胞的活动。
这些先前的模型与Bill等人提出的模型在许多方面截然不同,但它们都广泛兼容以下架构:一个晚期运动处理阶段(推测为MST)对局部速度估计(推测为MT)进行操作,通过某种形式的竞争性分组来解析运动源。对于Bill等人的模型,这些局部速度估计对应于静止的运动斑块(与MT的视网膜拓扑结构兼容),或对应于可能在视觉场景中改变位置的移动物体(可能涉及MT以外的脑区)。在辅助眼场(SEF)中发现的选择性编码物体左端或右端的神经元,以及顶叶皮层中丰富的物体中心位置表征证据,都暗示了物体中心参考系表征的存在。因此,存在追踪这些位置表征随时间变化的神经元是合理的。
Bill等人的模型假设任务相关变量在群体编码中表示,可以通过线性读出来解码。MSTd中物体运动和自身运动的线性可解码证据表明,该区域可能实现了Bill等人所假设的分层向量分析形式。未来的实验工作需要直接检验这一假设。
结论
本文综述记录了支持运动感知层次性的一系列经验证据。最近的理论工作表明,Johansson的知觉向量分析假设的完全形式化版本可以捕捉许多这些经验现象。这也引出了对理论预测的新实验检验。从这一研究脉络中浮现出的总体图景是,视觉系统将复杂的运动模式解析为更简单组分的组合。关于适当解析的模糊性通过贝叶斯推理解决,它表示了可能解析的概率分布。这种分布可以使用生物似真的神经回路进行有效近似。大脑是否确实使用这样的回路进行分层运动感知,仍然是一个悬而未决的问题。
另一个令人兴奋的研究方向是设计更类人的计算机视觉人工系统。受人类研究启发的最新工作表明,此类系统可以经过训练从视频中提取基于部件的分解,并利用这些分解来解决具有挑战性的任务,如合成未来帧。
分层运动感知本身值得深入研究,但我们相信这些研究也揭示了大脑使用的一种更普遍的策略及其神经实现方式。层次结构出现在许多其他领域:语言中的短语结构、计划中的子计划、叙事中的事件、物体中的部件。发现和表征这种结构的能力通常被认为是高级认知的标志。然而, underlying的神经机制仍然难以捉摸,部分原因是我们对基本组件(基元)如何表征缺乏足够的理解。相比之下,视觉运动感知的神经机制已经被研究了几十年,提供了一套植根于特定脑区、细胞类型和回路机制的基元。这为利用运动感知作为可驾驭的模型系统,来阐明高级认知的某些方面如何在大脑中实现打开了大门。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号