
-
生物通官微
陪你抓住生命科技
跳动的脉搏
幼儿快速稳健视觉物体识别的发育机制及计算模型对比研究
【字体: 大 中 小 】 时间:2025年07月03日 来源:SCIENCE ADVANCES 11.7
编辑推荐:
为解决儿童视觉识别能力发展机制的关键问题,研究人员通过对比3-5岁儿童与多种深度神经网络模型(DNNs)在快速(100-300 ms)及轮廓干扰条件下的物体识别表现,发现幼儿在稀疏和破坏性视觉输入中仍能高效识别物体,且其表现优于多数生物启发模型。该研究揭示了人类视觉系统在有限经验下的鲁棒性,为构建更接近生物认知的计算模型提供了重要约束。
在视觉认知领域,人类如何从稀疏甚至残缺的视觉输入中快速识别物体,一直是科学家关注的焦点。成年人在100毫秒内即可完成物体识别,并能跨越视角变化、遮挡等干扰。然而,这种能力是源于先天的神经机制,还是后天经验积累?儿童何时发展出这种能力?这些问题对理解人类视觉系统的发育和人工智能模型的优化至关重要。
以往研究存在矛盾:婴儿实验提示早期全局形状感知能力,但针对学龄儿童的研究却认为相关能力需至青春期才成熟。此外,儿童很少在标准化实验条件下测试,且缺乏与计算模型的直接对比。为此,来自Emory University的研究团队在《SCIENCE ADVANCES》发表论文,首次系统评估了3-5岁儿童在快速掩蔽、轮廓干扰条件下的物体识别能力,并与15种生物启发或性能优化的深度神经网络(DNNs)进行对比。
研究采用三项关键技术方法:
研究结果
Child performance
3岁儿童在100 ms快速呈现下对完整轮廓物体的识别准确率显著高于随机水平(P < 0.007, d > 1.00),但在扰动和删除条件下需更长时间(分别需200 ms和250 ms)。4-5岁儿童在所有条件下均表现优异,但整体仍低于成人(P < 0.001)。年龄与轮廓完整性的交互效应表明,递归神经环路(recurrent processing)可能在幼儿期尚未完全成熟。
Model comparisons
生物启发模型中,递归架构(VoneNet_R)优于前馈模型(VoneNet_FF),但仅匹配3岁儿童在快速任务中的表现。使用儿童视角视频训练的模型(ResNext50-SAY)在扰动条件下优于传统分类模型(ConvNext/ViT),但仅大规模预训练模型(ViT-DINOv2/CLIP)能全面匹配儿童表现。关键发现是:DNNs需接触超过儿童实际经验数倍的图像(如CLIP的4亿张)才能达到相似性能。
Learning objective or scale?
训练规模(ρ = 0.70-0.83)而非学习目标(监督/无监督)是模型性能的主要驱动力。ResNet50-ImageNet21k(1400万图像)显著优于小规模训练模型,但人类在经验量低两个数量级时仍表现更优。
讨论与意义
该研究首次证明幼儿具备远超当前DNNs的视觉鲁棒性,其核心发现包括:
研究为发展类脑人工智能提供了明确方向:未来模型需整合时空连续性处理、多模态(如语言)约束和更生物合理的递归架构。同时,该成果建立了儿童认知发育的新基准,强调神经科学与计算模型的交叉研究对揭示人类智能本质的重要性。
生物通微信公众号
知名企业招聘