
-
生物通官微
陪你抓住生命科技
跳动的脉搏
人类与人工视觉系统共享将双眼视差转化为深度表征的计算原理
【字体: 大 中 小 】 时间:2025年07月12日 来源:Communications Biology 5.2
编辑推荐:
本研究通过功能磁共振成像(fMRI)和深度神经网络(DNN)技术,揭示了人类视觉系统从初级视皮层(V1)到高级视区(V3A/B、hMT+)的视差表征转变机制:早期视区(V1-V3)主要依赖交叉相关(cross-correlation)计算,而高级视区则倾向交叉匹配(cross-matching)处理。该发现为理解三维视觉的神经计算基础提供了新见解,并证明人工视觉系统GC-Net在训练过程中自发形成了与生物视觉相似的层级处理模式。研究成果发表于《Communications Biology》。
当我们用双眼观察世界时,大脑如何将两只眼睛看到的微小差异转化为立体深度感知?这个被称为"立体视觉对应问题"的世纪难题,至今仍是视觉神经科学的核心挑战。传统理论认为,视觉系统通过比较左右眼图像的相似性(交叉相关)来计算深度,但这种机制会产生大量错误匹配信号。更令人困惑的是,人类竟然能从完全反相关的随机点立体图(aRDS)中感知到反转的深度,这种现象挑战了现有的计算模型。
日本大阪大学的研究团队在《Communications Biology》发表的重要研究中,结合功能磁共振成像(fMRI)和深度学习技术,系统揭示了人类视觉系统处理双眼视差的层级机制。研究人员设计了三类随机点立体图(RDS):完全相关(cRDS)、半匹配(hmRDS)和反相关(aRDS)刺激,通过精确控制点相关水平来区分交叉相关和交叉匹配两种计算机制。同时训练几何上下文网络(GC-Net)进行自然场景的视差预测,构建了人工与生物视觉系统的比较研究框架。
研究采用多模态技术方法:1) fMRI记录22名受试者对三类RDS刺激的BOLD信号,通过多体素模式分析(MVPA)和表征相似性分析(RSA)解码视差信息;2) 训练GC-Net网络模拟视差处理过程,通过激活最大化技术分析网络单元的感受野特性;3) 心理物理实验验证人类和GC-Net的深度判断一致性。

研究结果显示,早期视觉区域V1-V3主要表现交叉相关特性,能够响应相关和反相关刺激的视差信息;而高级区域V3A/B、V7和hMT+则表现出明显的交叉匹配倾向,选择性过滤错误匹配信号。特别值得注意的是,hMT+区域几乎完全依赖交叉匹配计算,这与猕猴MT区的生理发现形成有趣对比。
GC-Net的分析揭示了人工视觉系统存在类似的表征转变:早期层(19-24)以交叉相关为主,中期层(25-31)转向差异特征处理,后期层(32-37)则强化相似性匹配。激活最大化分析显示,这种转变经历三个计算阶段:初期同时处理相似和差异特征,中期专注差异特征分析,后期强调相似特征整合。

讨论部分指出,这项研究首次在人类视觉系统中明确了交叉相关到交叉匹配的层级转变,解决了长期存在的神经表征争议。发现具有三方面重要意义:1) 为立体视觉的神经计算提供了统一框架,解释为何人类能从反相关刺激中感知深度;2) 证明自然场景的优化训练能使人工网络自发形成与生物视觉相似的计算策略;3) 揭示了hMT+区域在人类视觉系统中的特殊地位,可能反映了物种特化的立体处理机制。

该研究的创新性在于将计算模型与神经影像数据有机结合,不仅阐明了立体视觉的神经机制,也为开发更鲁棒的计算机立体视觉算法提供了生物启发。未来研究可进一步探索反馈机制在深度感知中的作用,以及中央与外周视野在处理反相关刺激时的差异。

生物通微信公众号
知名企业招聘