自运动过程中三维运动世界的视觉解析:大脑如何协同计算物体运动与深度感知

【字体: 时间:2025年09月28日 来源:Annual Review of Vision Science 5.5

编辑推荐:

  本综述系统阐述了自运动过程中视觉系统如何整合多种线索(如光流、双眼视差、前庭信号)来协同推断物体运动、自我运动与深度感知的神经机制。文章提出了一个统一的计算框架,涵盖光流解析(optic flow parsing)、运动视差(motion parallax)深度感知及坐标变换等关键过程,为理解复杂自然场景下的三维视觉感知提供了重要理论支撑,并对自动驾驶、虚拟现实等技术领域具有重要启示。

  

2. 自运动过程中的物体运动处理

本节探讨了大脑在观察者运动时估计物体运动的机制。视网膜图像速度(vr)由场景相对物体运动(vo)和眼睛相对于场景的运动(即自我运动,vs)共同决定,两者均依赖于场景点的深度(Z)。为准确估计场景相对物体运动,大脑需解析并扣除vs的贡献。解决该问题依赖三类信息:光流(提供自我运动信息)、深度线索(如双眼视差和相对大小)以及额外视网膜信号(包括与前庭相关的头部运动信号和产生眼动的运动指令的副本)。

2.1. 光流与自我运动的约束射线

在分析经验研究之前,我们总结一个有助于统一各种经验观察的理论框架:自我运动的约束射线(Nelson 1991, Thompson & Pong 1990)。光流是指由自我运动(即眼睛相对于场景的平移和旋转)产生的大视野背景图像运动(Gibson 1950)。在视网膜上的特定点(x, y),位于深度Z的物体的光流与具有六个自由度的自我运动相关,包括沿X、Y和Z轴的平移(Tx, Ty, Tz)和绕这些轴的旋转(Rx, Ry, Rz)。视网膜上某点的二维光流向量(vs)可计算为平移分量(vt)和旋转分量(vr)之和(Longuet-Higgins & Prazdny 1980)。该关系对视网膜运动的解释施加了一个重要约束——任何偏离该关系的图像运动都可归因于场景相对物体运动(Jain 1984, Nelson 1991, Thompson & Pong 1990)。这可以在二维图像速度空间中可视化为一条约束射线。当仅存在旋转自我运动时,视网膜上任何点的光流向量是深度不变且明确的。当视网膜图像运动偏离光流向量时,它们的差异可以解释为物体运动。当平移和旋转自我运动分量都存在时,所有可能的流向量在该二维平面上可视化为一条射线,射线上的位置由距离Z缩放。当物体的视网膜图像运动偏离约束射线时,可以检测到物体运动,并且可以通过从vr中减去vs来确定物体运动的方向。Royden & Connors (2010) 发现,当物体运动方向更偏离约束射线时,人类更容易检测到物体运动,这暗示了在径向光流中使用自我运动约束。这一点在 Lutwak 等人 (2025) 的最新研究中得到了更直接的测试和证实。

2.2. 光流解析

当观察者运动时,由自我运动产生的光流会叠加到物体的运动上并改变其视网膜图像速度。为了估计物体在世界中的运动,必须从物体的视网膜图像运动中减去与自我运动相关的光流向量。光流解析被提出作为一种视觉机制,大脑通过该机制在存在自我运动的情况下估计场景相对物体运动(Foulkes et al. 2013; Niehorster & Li 2017; Royden & Connors 2010; Rushton et al. 2018; Warren & Rushton 2007, 2008, 2009a,b)。形式化上,流解析假说指出,大脑通过从物体的视网膜速度(vr)中减去物体位置的光流向量(vs)来计算世界中的物体运动(vo)。流解析预测,视觉显示上的物体运动感知将偏向与物体位置的光流向量相反的方向。大量研究表明,人类和猕猴表现出感知运动的系统偏差,其方式与流解析假说预测的视觉场位置和偏心距依赖的方式一致(Foulkes et al. 2013; MacNeilage et al. 2012; Mayer et al. 2021; Niehorster & Li 2017; Peltier et al. 2020; Royden & Connors 2010; Rushton et al. 2018; Warren & Rushton 2007, 2008, 2009a)。有强有力的证据表明,人类和猕猴可能低估了vs,导致不完美的流解析(Foulkes et al. 2013; Niehorster & Li 2017; Peltier et al. 2020; Warren & Rushton 2007, 2009a)。因此,修正模型在vs上加入了一个流解析增益g来捕捉这种低估,其中g=1意味着完美流解析,g<1表示低估,g>1表示高估。J?rges & Harris (2022) 最近的一项研究表明,在沉浸式3D虚拟环境中,人类可以更准确地估计自我运动,导致流解析增益更接近1。Peltier等人 (2024) 最近的一项电生理学研究在猕猴中级颞区(MT)中发现了光流解析的神经相关性。当在模拟向前或向后自我运动的径向光流存在下训练执行运动辨别任务时,猕猴表现出与流解析假说一致的感知偏差(Peltier et al. 2020, 2024)。MT神经元的反应受到位于其感受野之外的大视野背景光流的调制,这些调制以与转移群体活动以解释行为偏差相一致的方式依赖于神经元的方向偏好(Peltier et al. 2024)。相应地,对一小群MT神经元的解码预测了与行为观察相似的感知偏差,表明MT活动至少可以部分解释流解析的行为效应(Peltier et al. 2024)。MT反应受光流调制相对于视觉反应 onset 显著延迟,表明反馈在计算自运动过程中的场景相对物体运动中的潜在作用。

2.3. 深度线索和前庭信号的贡献

如第2.1节所述,人类可以检测偏离约束射线的物体运动。在大多数情况下,这对应于场景相对物体运动向量与约束射线相交的情况。然而,当一个特别具有挑战性的场景出现时,即物体沿局部光流向量相同方向运动时,问题就变得尤为棘手。在这种情况下,与场景相对物体运动相关的图像运动可能与由自我运动产生的运动视差相混淆。这个问题的解决方案是获取关于物体深度(Z)的独立线索,在这种情况下,约束射线简化为射线上的一个特定点。与此预期一致,Rushton等人 (2007) 表明,当运动物体在场景中通过双眼视差线索呈现时,它们会自动弹出,表明深度线索在解析视网膜运动来源中的作用。Kim等人 (2022) 使用类似于 Rushton等人 (2007) 的实验设计,训练猕猴检测场景相对物体运动。在缺乏额外深度线索的情况下,场景相对物体运动和深度相互混淆,猕猴只能在提供双眼视差线索且其与运动视差定义的深度相冲突时检测场景相对物体运动。先前的研究表明,MT神经元编码来自双眼视差线索的深度(Born & Bradley 2005, DeAngelis & Newsome 1999, DeAngelis & Uka 2003, Maunsell & Van Essen 1983, Uka & DeAngelis 2003, Zeki 1980)和来自运动视差线索的深度(Kim et al. 2015a,b, 2016, 2017; Nadler et al. 2008, 2009, 2013)。此外,Nadler等人 (2013) 确定了一部分MT神经元对视差和运动视差线索显示出相反的深度调谐偏好,并推测这些神经元可能在检测场景相对物体运动中发挥特定作用。确实,Kim等人 (2022) 发现这些被称为“对立细胞”的MT神经元通常在视差和运动视差之间的线索冲突指示场景相对物体运动时反应更强,并且它们的选择性与在自我运动存在下对物体运动的感知检测相关。相反,基于视差和运动视差具有一致深度偏好的MT神经元通常对世界中静止的物体反应最大,并且它们的反应不能预测感知检测。最后,Kim等人 (2022) 表明,对MT神经元群体的解码可以解释猴子在物体检测任务中的表现。因此,对立细胞非常适合识别运动视差预期的深度与双眼视差预期的深度不一致的情况,这种偏差可归因于场景相对物体运动。人类和其他动物整合视觉和前庭信号以实现更准确和精确的自我运动感知(Dokka et al. 2015a, Fetsch et al. 2009, Gu et al. 2008, Morgan et al. 2008)。如第2.2节所讨论,在使用纯视觉刺激的研究中,流解析增益通常小于1,表明只有一部分自我运动被考虑在内(Foulkes et al. 2013; Niehorster & Li 2017; Peltier et al. 2020; Warren & Rushton 2007, 2008, 2009a)。一些研究表明,在存在前庭信号的情况下,自我运动的估计变得更加准确,导致流解析增益更接近1(Dokka et al. 2015b, MacNeilage et al. 2012, Peltier et al. 2020)。这些发现表明前庭信号对自运动过程中的物体运动处理有贡献。多感官朝向感知如何在视觉皮层的细胞水平上与光流解析相互作用仍然是一个悬而未决的问题。

2.4. 平滑追踪眼动过程中的物体运动处理

眼动是视觉感知不可或缺的一部分。快速的扫视眼动迅速地将我们的注视点从一点转移到另一点,而平滑追踪眼动则持续跟踪移动的物体(Yarbus 2013)。与短暂且暂时抑制视觉感知的扫视运动不同(Matin 1974),平滑追踪眼动通常持续较长时间,因此在平滑追踪期间抑制感知是不可行的(Spering & Montagnini 2011)。平滑追踪眼动的延长时间过程带来了一个挑战:平滑追踪运动为视觉场景中的所有物体增加了视网膜图像运动的分量,即使是静止的物体。视觉系统如何面对自生眼动的感觉效应形成对世界的一致知觉?一些关于平滑追踪过程中运动感知的最早探索包括奥伯特-弗莱施尔现象(Aubert-Fleischl phenomenon)和菲莱内错觉(Filehne illusion)。奥伯特-弗莱施尔现象描述了当眼睛通过平滑追踪跟踪一个移动物体时,会低估该物体的速度(Aubert 1887, von Fleischl 1882)。Filehne (1922) 描述了一种错觉,即静止的物体在平滑追踪眼动期间显得在运动。菲莱内错觉和奥伯特-弗莱施尔现象传统上被认为反映了一个过程,即大脑补偿了平滑追踪的视觉后果,但低估了追踪眼速(Festinger et al. 1976, Mack & Herman 1973)。更普遍地,其他人(Wertheim 1981, 1987)提出,大脑使用一个参考信号,该信号结合了关于眼速的视觉和额外视网膜信号,以扣除与平滑追踪相关的图像运动。这个问题的贝叶斯处理也被提出(Freeman et al. 2010)。无论与平滑追踪眼动相关的信号来源如何,主导的概念模型是视觉系统通过运动向量计算来补偿平滑追踪(Freeman et al. 2010; Souman et al. 2006a,b; Wertheim 1981, 1987)。这种计算可以理解为从视网膜中心坐标系到世界中心坐标系的变换。这种坐标变换可以通过简单地将眼速(ve)加到物体的视网膜速度(vr)来实现。虽然已经提出了这种方案的变体来解释ve的视网膜和额外视网膜来源(Wertheim 1981)或解释不同的信号增益(Freeman & Banks 1998),但视网膜速度和眼速之间向量加法计算的一般形式与人类心理物理学的众多观察结果非常吻合(Freeman & Banks 1998; Freeman et al. 2010; Souman & Freeman 2008; Souman et al. 2006a,b)。然而,如我们在第4节中描述,这种计算平滑追踪过程中物体运动的通用模型仅适用于纯眼旋转的情况,并且在存在眼平移的情况下会严重失败。眼位和追踪速度的神经编码在大脑皮层中得到了广泛研究。早期工作表明,顶叶区域的神经元以乘法方式共同编码物体在视网膜上的位置和注视方向,这一观点得到了实验和理论发现的支持(Andersen 1989, Andersen & Mountcastle 1983, Andersen & Zipser 1988, Pouget & Sejnowski 1997, Salinas & Abbott 1995)。更新的研究表明,这个过程在初级视觉皮层(V1)就开始了(Morris & Krekelberg 2019, Parker et al. 2022b)。Morris & Krekelberg (2019) 表明,在扫视和平滑追踪过程中,V1神经元群体中存在类似的增益场用于编码眼位和视网膜图像,使得下游区域能够读出世界中的物体位置。在猕猴中,MT区和内侧颞区(MST)已被证明对平滑追踪眼动的 initiation 有因果贡献(Groh et al. 1997; 综述见 Lisberger 2015, Lisberger et al. 1987)。类似地,在MST区发现了运动信号的坐标变换(Brostek et al. 2015; Chukoskie & Movshon 2009; Inaba et al. 2007, 2011)以及其他顶叶区域(Ilg et al. 2004)。例如,Chukoskie & Movshon (2009) 测量了MT和MST神经元在注视或平滑追踪行为期间对其感受野内移动的随机点斑块的速度调谐,并发现在两个区域中都有一小部分神经元的反应能更好地用头中心速度调谐来解释(15%的MT细胞和24%的MST细胞)。使用大视野随机点运动刺激,Inaba等人 (2011) 报告称MST细胞的方向和速度调谐显著向头中心坐标转移,而很少有MT神经元表现出类似的调谐转移。Brostek等人 (2015) 表明,在视动反应期间,MST神经元使用增益场编码视网膜图像运动和眼速。这些研究的一个共同主题是,MT神经元主要编码视网膜运动,而MST神经元编码向头中心坐标转移的参考系中的运动。传统上,大多数关于参考系的电生理学研究隐含地假设神经元以固定的参考系编码空间变量。然而,最近的一项研究表明,顶叶皮层中存在灵活的运动编码,使得神经元群体可以根据任务指令在多个参考系中表示物体运动(Sasaki et al. 2020)。这些发现可能解释了先前关于神经参考系研究结果的一些可变性。与MT神经元编码视网膜速度的传统观点相反,其他更新的研究表明,MT神经元的视觉反应可以受到平滑追踪眼动的强烈调制。例如,MT神经元表现出对运动视差线索的深度选择性,并且这种选择性被证明是由平滑眼动命令信号而非与头部运动相关的前庭信号介导的(Nadler et al. 2008, 2009)。这些发现与运动-追踪定律(Nawrot & Stroyan 2009)非常吻合,该定律表明深度可以从运动视差和场景相对眼速的组合计算出来,但不需要关于头部运动的信息。这些研究的一个重要扩展表明,模拟眼旋转的大视野背景运动本身也会在MT神经元中产生深度符号选择性(Kim et al. 2015b)。因此,由平滑眼动 induced 的光流本身可以用作神经计算中关于眼速的额外视网膜信号的代理,我们将在第4节回到这个话题。最近的一项研究表明,MST背侧部分(MSTd)的神经元对基于光流和额外视网膜信号的眼旋转方向具有一致的选择性,表明MSTd可能是整合眼旋转信息的来源(DiRisio et al. 2023)。

2.5. 物体运动与自我运动感知中的因果推断

到目前为止,我们已经回顾了自我运动如何影响物体运动感知,以及各种信号在补偿自我运动的视觉后果中的作用。然而,场景中运动物体的存在也会破坏由自我运动产生的光流场。因为人类会自动从光流推断自我运动(Warren & Hannon 1988),物体运动可能使自我运动感知产生偏差(Acerbi et al. 2018; Dokka et al. 2015a, 2019; Fajen & Kim 2002; Layton & Fajen 2016a,b)。视网膜图像运动的解释本质上是一个因果推断问题(French & DeAngelis 2020, K?rding et al. 2007, Shams & Beierholm 2010)——观察者必须将视网膜运动的来源归因于自我运动、物体运动或两者(Acerbi et al. 2018, Dokka et al. 2019, French & DeAngelis 2020)。这个问题的一个可能解决方案是检查视网膜运动与推断的光流向量之间的差异。当视网膜运动与全局光流一致时,意味着vr位于约束射线上,其来源可以仅用自我运动来解释,并且不应推断存在移动物体。当视网膜运动仅轻微偏离约束射线时,人们可能仍然感知物体在世界中是静止的,并将其视网膜运动与背景光流整合以更新自我运动感知,这导致一个新的约束射线,与观察到的视网膜图像运动兼容。当视网膜运动与光流充分不同且不位于约束射线上时,必定存在一个移动物体(Acerbi et al. 2018, Dokka et al. 2019)。这些场景提供了在贝叶斯推断框架下制定的概率解决方案的直观理解,并且理论预测已被证明与人类心理物理学实验的结果相当吻合(Acerbi et al. 2018, Dokka et al. 2019, K?rding et al. 2007, Shams & Beierholm 2010)。

3. 来自运动视差的深度及其与物体运动的相互作用

在前一节中,我们研究了自我运动如何影响关于场景相对物体运动的推断,反之亦然。另一个可以强烈影响视网膜图像速度的变量是深度。在本节中,我们回顾大脑如何从运动视差计算深度,然后研究场景相对物体运动如何影响深度感知,反之亦然。

3.1. 运动视差的几何学和行为证据

大脑使用各种视觉线索来推断场景的深度结构(Howard & Rogers 2008)。这些包括诸如阴影、大小、遮挡和透视等图画线索,这里我们不再进一步考虑。双眼视差和运动视差提供了关于深度的最定量信息,因为它们都源于从不同有利位置观察场景。事实上,双眼视差和运动视差深度线索背后的几何结构密切相关。双眼视差是指投射到两个视网膜上的图像略有位置差异,这是由于眼睛之间的水平分离而产生的。相反,运动视差是指由单眼相对于场景的平移和旋转运动组合产生的视网膜图像运动。当眼睛横向平移相当于瞳距的量并同时反向旋转以维持对静止目标的注视时,产生的图像运动等同于用双眼观察同一物体的双眼视差(Bradshaw & Rogers 1996, Rogers & Graham 1982)。自从 von Helmholtz (1962) 的工作以来,从运动视差的深度感知得到了广泛的研究。使用随机点刺激,研究人员通过将其与其他深度线索(如双眼视差)隔离开来,仔细研究了这种单眼深度线索(Ono et al. 1986, Rogers 1993, Rogers & Graham 1979)。在图5b的观察几何中,从运动视差推断深度需要关于头部平移或相对于场景的眼旋转的知识,如果其他深度线索被消除(Nawrot 2003)。研究表明,平滑追踪眼动在从运动视差线索感知深度中起着关键作用(Naji & Freeman 2004, Nawrot 2003)。后来,Nawrot & Stroyan (2009) 表明,静止物体的相对深度(d/f)可以通过视网膜速度(vr)与相对于场景的眼速度(ve)的比值来近似,其中d是静止物体与注视点之间的距离,f是观看距离。许多其他物种,如鸽子(Frost 1978, Hataji et al. 2021, Xiao & Frost 2013)、小鼠(Parker et al. 2022a)、猫头鹰(van der Willigen et al. 2002)和一些昆虫(Horridge 1986, Kral 2003, Kral & Poteser 1997, Preiss 1987)也使用运动视差线索来推断深度。类似的视差线索也可以在听觉(Genzel et al. 2018, Yost 2018)和电感应(Hunke et al. 2021, Pedraja et al. 2018)等其他感觉模态中找到。

3.2. 中级颞区的神经相关性

与关于双眼视差神经编码的大量文献(综述见 Cumming & DeAngelis 2001, Parker 2007)相比,直到最近,关于从运动视差编码深度的神经机制知之甚少。尽管有些人推测MT和MST区在表示运动视差方面的潜在作用(Cornilleau-Pérès & Gielen 1996),但直到十年后,Nadler等人 (2008) 才在MT区发现了对由运动视差定义的深度有调谐的神经元。目前,尚不清楚具有这种特性的神经元是否也存在于其他视觉区域。与理论和心理物理学结果一致(Naji & Freeman 2004, Nawrot 2003, Nawrot & Stroyan 2009, Stroyan & Nawrot 2012),导致MT神经元中这种深度线索选择性的额外视网膜信息涉及与平滑追踪眼动相关的信号,而不是关于头部平移的前庭信号(Nadler et al. 2009)。重要的是,这种与平滑追踪相关的信号可以来自运动指令的 efference copy(Nadler et al. 2009)或来自模拟这种观察几何中眼旋转的大视野背景运动(Kim et al. 2015b)。此外,MT神经元中这种对运动视差深度的新颖选择性与对双眼视差的选择性相整合(Nadler et al. 2013),并且与猕猴的深度辨别行为功能相关(Kim et al. 2015a)。因此,除了表示视觉运动之外,MT区还包含基于视差和运动视差的深度表示。关于平滑追踪眼动信息如何调制MT神经元以产生对运动视差的深度选择性?一项初步研究表明,来自运动视差的深度调谐是由眼动引起的增益调制产生的(Kim et al. 2017)。然而,一项更新的研究表明,对于某些MT神经元,深度选择性似乎源于从视网膜到头中心速度编码的部分坐标变换(Xu & DeAngelis 2022)。与最近关于光流解析的发现一致(Peltier et al. 2024),这些结果表明MT区参与将运动信号转换为非视网膜参考系。

3.3. 物体运动使深度感知产生偏差

运动-追踪定律中存在着一个关键的假设,该定律描述了如何从运动视差计算物体的深度(Nawrot & Stroyan 2009)。该理论假设物体在世界中是静止的,因此其视网膜运动仅由自我运动引起。然而,我们的视觉环境通常包含移动的事物(飞鸟、移动的汽车、行走的行人等)。当运动视差深度线索被物体运动污染时,推断深度变得更具挑战性(French & DeAngelis 2020, 2022)。对于相同的观察几何和感觉观察,可能存在多种解释。例如,物体的视网膜运动可以归因于运动视差,形成特定深度静止物体的感知。它也可以被解释为处于不同深度的独立移动物体。最近的一项研究表明,物体的深度感知会强烈地受到物体是否相对于场景移动的影响(French & DeAngelis 2022),证明了物体运动感知与深度之间的耦合。这种相互作用也可以使用约束射线来理解:物体运动改变了视网膜速度向量与约束射线相交的点。在没有其他强深度线索的情况下,这个交点决定了感知深度,因此物体运动导致有偏差的深度感知。通过要求人类受试者同时报告物体的深度符号(即近 vs. 远)以及它是否在世界中移动,运动和深度之间的感知权衡可以建模为一个贝叶斯因果推断问题(French 2021)。

4. 观察几何的推断及其在运动与深度感知中的作用

如第2.4节所讨论,平滑追踪眼动对视觉感知的影响已在二维场景中得到广泛研究(Freeman & Banks 1998; Freeman et al. 2000, 2010; Souman & Freeman 2008; Souman et al. 2006a; Spering & Montagnini 2011; Wertheim 1981, 1987, 1994)。普遍认为,视觉系统从物体的视网膜运动中减去与追踪眼速相关的参考信号,以计算世界中的物体运动(Freeman & Banks 1998; Freeman et al. 2000, 2010; Souman & Freeman 2008; Souman et al. 2006a; Spering & Montagnini 2011; Wertheim 1981, 1987)。这种类型模型的一个关键假设是,平滑追踪的视觉后果是一个单一的光流向量,可以通过参考信号来取消(Freeman 2001, Wertheim 1994)。虽然这种假设在纯眼旋转的情况下 largely holds,但当我们将问题简单扩展到针对3D背景的眼旋转和平移时,情况就变得更加复杂。首先,考虑一个静止的观察者进行纯眼旋转以跟踪3D背景上的目标的情况(R观察几何)。在这种情况下,背景图像运动是一个旋转流场,等同于场景围绕眼睛的旋转。在平面图像投影下,这种旋转流场不是纯粹的层流,但运动向量与深度无关。因此,由平滑追踪引起的
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号