《Developmental Science》:Three-Dimensional Object Perception Can Emerge From Predictive Learning
编辑推荐:
婴儿如何在三维世界中发展出对物体的知觉能力?核心知识理论(core knowledge theory)认为,婴儿运用粘连性(cohesion)、连续性(contininuity)、刚性(rigidity)和接触(contact)等少数原则来引导对物体的推断。然
婴儿如何在三维世界中发展出对物体的知觉能力?核心知识理论(core knowledge theory)认为,婴儿运用粘连性(cohesion)、连续性(contininuity)、刚性(rigidity)和接触(contact)等少数原则来引导对物体的推断。然而,仅基于婴儿行为研究,难以回答物体知觉如何在婴儿面临的类似约束条件下被习得,以及这些原则是否足以支持学习。研究人员假设,物体的构念(construct)是为服务于高效预测的目的而涌现的,并通过在简化虚拟环境中训练的深度神经网络模型来检验这些原则的计算充分性,该环境模拟了婴儿大脑在学习预测未来视觉输入时面临的关键约束。该模型在无监督条件下同时学习三种基本知觉能力:深度知觉(depth perception)、物体分割(object segmentation)以及从单一图像进行物体的三维定位(3D localization)。其内部对物体的表征反映了物体的形状和纹理。在核心知识原则中,粘连性、连续性和刚性原则构成一个充分的子集,使研究人员模型能够在测试环境中学习物体知觉,而无需纳入接触原则。放宽刚性假设会损害深度知觉和物体的三维定位,但保留了二维物体分割能力。研究人员的发现提示,预测性学习(predictive learning)是驱动早期发展中物体知觉涌现的一种潜在候选机制。
本研究旨在探讨婴儿如何在三维世界中发展出对离散物体和背景的知觉能力,并验证核心知识理论中关于物体知觉原则的计算充分性。研究人员提出,物体表征的构念可能源于大脑对周围环境进行高效预测和控制的需要。当自身或物体在环境中移动时,场景中许多可见成分会继续保持在视野中,尽管它们在视网膜上的位置发生变化,这意味着大脑可以基于当前所见很大程度上预测下一时刻的场景。然而,独立预测每个像素在视网膜上的运动计算成本极高;若某些像素以相干方式一起移动(如作为刚体),则大脑只需跟踪整个实体的少量运动参数即可预测其组成像素的运动。这种对高效预测的需求可能促使大脑学习哪些视觉特征对于指示像素应被分组在一起至关重要,而这些分组对大脑而言即构成物体。
目前,物体知觉研究面临的核心问题在于:核心知识理论提出的原则是否 Truly 先天且必要?新生儿行为测试存在困难,且尚未有研究证明在内置这些原则的条件下,学习系统能够获得物体知觉的核心能力。此外,现有机器学习方法通常需要像素级标注等监督信号,而婴儿无法获得此类监督。
研究人员开展了以下研究:首先构建了一个名为OPPLE(Object Perception by Predictive LEarning)的深度神经网络模型,该模型仅利用连续视觉输入和自我运动信息,通过优化预测未来视觉输入的目标来学习物体知觉。模型包含三个并行的深度卷积神经网络:深度知觉网络(采用U-Net架构)从单一图像推断深度图;物体提取网络(结合U-Net与长短期记忆网络LSTM)输出物体的分割掩膜、身份编码、三维位置和姿态;生成预测网络("想象"网络)填补因遮挡等原因无法通过光流预测的区域。
研究使用了研究人员自行程序生成的数据集(训练集826,720个三元图像组,验证集17,960个,测试集4,000个),该数据集包含比CLEVR和GQN等常用合成数据集更复杂多样的物体表面纹理。为验证泛化性,还在GQN数据集和更具挑战性的MOVi-E数据集上进行了测试。
研究结果方面,物体分割结果表明,OPPLE在调整兰德指数(ARI-fg=0.58)和交并比(IoU=0.45)上均优于MONet、Slot Attention、SLATE、AMD和O3V等对比模型。三维定位结果显示,物体视觉角度估计相关性较高(
r=0.85),距离估计相关性较低(
r=0.53),较大且较近的物体分割效果更好。深度知觉结果表明,推断深度与真实深度高度相关(
r=0.82),且深度知觉比物体分割更早出现学习效应。物体表征分析显示,模型学到的身份编码空间中,最近邻物体共享形状或纹理的频率显著高于随机水平。核心知识原则贡献方面,刚性假设消融实验表明,用全连接神经网络替代刚性运动方程后,分割性能保持不变(ARI=0.58, IoU=0.44),但深度知觉(
r=-0.02)和三维定位(角度
r=0.17, 距离
r=0.06)严重受损;粘连性和连续性假设消融实验表明,仅用生成预测网络进行预测导致分割性能大幅下降(ARI-fg=0.22, IoU=0.23),无法有效分割物体或推断深度。
讨论部分,研究人员指出这是首个展示核心知识理论假设如何仅利用大脑可获得的信号就能产生物体知觉学习的计算模型。预测性学习作为核心机制,使物体知觉成为学习预测视觉输入的副产品。模型明确的三维空间表征使其区别于其他仅学习二维运动或全局语义表征的方法。研究还关联了控制饲养实验中鸡雏的观察结果,并提出了关于婴儿注视行为发展序列的可检验预测。局限性包括缺乏触觉输入、摄像机运动与婴儿实际经验的差异、以及某些机制(如softmax近似遮挡)的生物现实性不足。未来方向包括纳入复杂光照效应、在更真实的数据集上训练,以及将方法扩展至直觉物理和直觉心理学等其他核心知识领域。