视觉拥挤:从经典模型到动态层级处理的多机制整合

【字体: 时间:2025年09月28日 来源:Annual Review of Vision Science 5.5

编辑推荐:

  本综述系统总结了视觉拥挤(Crowding)研究的最新进展,挑战了传统认为其仅发生于早期视觉皮层局部区域的观点。文章指出 crowding 受低阶特征相似性和高阶知觉分组(Grouping)共同调控,涉及前馈与反馈处理、多层级(从V1到LOC脑区)交互以及时空动态整合。作者强调 crowding 并非单一瓶颈机制,而是与注意力、统计摘要(TTM模型)、冗余掩蔽等现象交织的复杂现象,对理解阅读障碍、弱视等疾病机制及人工智能视觉模型优化具有重要启示。

  

1. 什么是视觉拥挤?

视觉拥挤是一种当目标物体被其他元素包围时,其识别能力受损的普遍现象。在日常生活中,当我们试图识别视野外围的字母时,若固定注视中心点,周边字母会因相邻元素干扰而难以辨认——例如图1a中,右侧的字母G因受两侧字母挤压而难以识别,但左侧孤立字母G却清晰可辨。拥挤的特征在于感知到的特征出现混杂扭曲,而非目标完全消失。
拥挤的干扰范围传统上由Bouma定律描述:干扰仅发生在目标离心率(e)一半的区域内(即e/2窗口)。但该窗口并非对称圆形,而是呈现径向-切向不对称性——径向排列的干扰更强。此外,还存在内外不对称性:远离注视点的干扰子比靠近注视点的干扰子产生更强拥挤(图1c)。近年研究发现,Bouma窗口大小还受对比度、空间频率和呈现时长等因素非线性调节。
特征相似性显著影响拥挤强度:当干扰子与目标颜色、朝向、运动方向等特征差异较大时,拥挤减弱(图1b)。高阶特征如面部身份、空间构型也会引发拥挤(图1e)。值得注意的是,传统认为中心凹(e=0)无拥挤,但近期研究证实中心凹拥挤确实存在,仅特性可能与周边视野不同。

2. 拥挤中丢失了什么?

拥挤通过四种方式损害感知性能:特征扭曲、特征整合、特征替换和目标消失。特征扭曲是最普遍的形式,例如被试复现周边线条画时产生严重变形(图2d)。特征整合表现为目标与干扰子特征被混合感知,例如运动方向判断受邻近干扰子运动方向影响,且这种整合具有特征特异性——颜色与朝向特征可独立被拥挤(图3f)。
特征替换指被试错误报告干扰子特征而非目标特征(如将字母G报告为相邻的N)。目标消失则体现为冗余掩蔽现象:当多个相同元素(如TTT)呈现时,中间元素常被忽略(图1d)。这些现象可能共存,但其内在关系尚不明确。
经典解释将拥挤归因于视觉层级中的神经汇聚机制:低阶神经元(如V1区朝向选择性细胞)的输出被高阶神经元汇聚,导致细节丢失。替代错误则源于特征与空间位置的错误绑定。Harrison与Bex(2015)提出计算模型:将目标与干扰子特征表示为高斯分布,当分布重叠时出现汇聚效应,分离时则发生替代(图3d)。

3. 超越Bouma窗口与经典模型

经典模型无法解释复杂配置下的拥挤现象。研究发现,Bouma窗口外的干扰子可增强或减弱拥挤(超拥挤现象)。更令人惊讶的是,增加干扰子数量有时反而改善性能(解拥挤效应)。例如单个方框强烈干扰Vernier偏移判断,但添加多个方框后性能接近无干扰条件(图3b)。这种效应违背局部汇聚模型的预测——更多干扰子应增加噪声而非改善感知。
全局配置微小变化可显著改变拥挤强度(图3c)。特征相似性也非绝对预测因子:交替红绿线条虽特征相异却引发强拥挤(图3a)。时间因素同样关键:仅目标闪现可减轻拥挤,而干扰子闪现无影响。这些发现表明,拥挤涉及整体场景组织而非局部交互。

4. 大尺度整合与统计摘要

多干扰子场景中,配置数量随元素增加呈指数增长,传统实验方法难以覆盖。遗传算法优化显示,在284条线的复杂场景中,仅最近干扰子影响目标识别,但该结果不否定远程交互的存在,而是强调分组后局部主导作用。
统计属性决定拥挤强度:当干扰子整体统计特征(如平均朝向)一致时,不同个体朝向配置产生相似拥挤效果(图3e)。纹理拼贴模型(TTM)为此提供计算框架:首先提取V1特征(如朝向Gabor滤波器响应),然后计算这些输出的点间相关性(二阶统计),生成模拟周边视觉的摘要表征(图2b)。通过比较原始图像与重建"蒙格尔图像"(mongrels)的可识别性,TTM成功预测颜色相似性对字母识别的影响。
然而TTM仍存局限:无法解释面孔拥挤等复杂情境,且其性能与干扰子像素量相关,类似基础汇聚模型。Freeman与Simoncelli(2011)提出的"代谢体"(metamers)方法也显示,统计变换后图像虽与原始图像无法区分,但场景类图像比纹理类更易被识破,表明高阶信息仍可部分获取。

5. 拥挤发生在何处?

早期fMRI研究将拥挤与V1-V2区BOLD信号抑制关联,但新证据表明BOLD抑制在解拥挤条件下更强,且与行为性能无单调关系。神经相关信号也出现在V4、LOC等高阶区域。EEG研究显示分组处理在200ms后出现,晚于前馈传导波。
心理物理学实验支持高阶影响:长时间适应拥挤显示后效未扭曲,表明目标在早期区域仍被完整处理;直立面孔比倒立面孔产生更强拥挤,说明处理层级涉及面孔特异性区域。多层级拥挤理论认为,拥挤发生于视觉层级多个阶段,信息通过集成编码传递,而感知读取仅访问有限子集(稀疏选择)。
注意力通过调节感受野属性或空间分辨率影响拥挤:空间注意可缩小Bouma窗口,调制内外不对称性,降低反应时。但注意力的具体操作化仍具挑战,常被批评为缺乏机制解释的"黑箱"概念。

6. 拥挤何时发生?前馈与反馈模型

传统前馈模型无法解释拥挤的时间动态性:干扰子在目标前后475ms呈现仍引发拥挤(图4a),而20ms干扰子预览可借助分组机制减轻拥挤(图4b)。fMRI显示V1与视觉词形区域间功能连接在拥挤时减弱,表明反馈交互受损。
模型比较研究表明,仅含分组结构的循环模型(如LAMINART)能解释解拥挤效应。LAMINART通过循环连接实现轮廓整合,不同对象被表征于独立分割层。目标与干扰子同层时发生拥挤,分层时则解拥挤(图4c,d)。胶囊网络等具循环分组机制的结构也展示类似能力,支持耗时递归处理对场景分割的必要性。

7. 讨论:拥挤研究的七大方向

未来研究需探索七大方向:(1)现象独立性:不同拥挤表现是独立机制还是互联整体;(2)瓶颈本质:是信息丢失还是读取限制;(3)功能意义:拥挤是否为生态适应的统计摘要策略;(4)记忆与注意:图标记忆、任务需求、眼动如何调节拥挤;(5)网络交互:前馈与反馈如何动态协调;(6)建模统一:建立标准化评估框架与数学形式化;(7)人工智能启示:卷积神经网络(CNNs)虽具强物体识别能力但缺乏人类拥挤特性,表明物体识别与拥挤可能解耦。

8. 结论

视觉拥挤是由多机制、多层级参与的动态过程,涉及局部特征交互、全局分组、统计压缩与注意调控。其复杂性要求整合性研究框架,跨越神经机制、计算模型与临床应用,最终揭示人类视觉系统在复杂环境中提取信息的核心原理。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号