幼儿快速稳健视觉物体识别的发育机制及计算模型对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月03日 来源：SCIENCE ADVANCES 11.7

编辑推荐：

　　为解决儿童视觉识别能力发展机制的关键问题，研究人员通过对比3-5岁儿童与多种深度神经网络模型（DNNs）在快速（100-300 ms）及轮廓干扰条件下的物体识别表现，发现幼儿在稀疏和破坏性视觉输入中仍能高效识别物体，且其表现优于多数生物启发模型。该研究揭示了人类视觉系统在有限经验下的鲁棒性，为构建更接近生物认知的计算模型提供了重要约束。

在视觉认知领域，人类如何从稀疏甚至残缺的视觉输入中快速识别物体，一直是科学家关注的焦点。成年人在100毫秒内即可完成物体识别，并能跨越视角变化、遮挡等干扰。然而，这种能力是源于先天的神经机制，还是后天经验积累？儿童何时发展出这种能力？这些问题对理解人类视觉系统的发育和人工智能模型的优化至关重要。

以往研究存在矛盾：婴儿实验提示早期全局形状感知能力，但针对学龄儿童的研究却认为相关能力需至青春期才成熟。此外，儿童很少在标准化实验条件下测试，且缺乏与计算模型的直接对比。为此，来自Emory University的研究团队在《SCIENCE ADVANCES》发表论文，首次系统评估了3-5岁儿童在快速掩蔽、轮廓干扰条件下的物体识别能力，并与15种生物启发或性能优化的深度神经网络（DNNs）进行对比。

研究采用三项关键技术方法：

行为实验设计：通过二选一迫选任务测试128名儿童和29名成人，刺激呈现时间采用滴定法调整（100-300 ms），包含完整、扰动和删除轮廓三种条件；
计算模型构建：对比包含V1仿生前端（VoneNet_FF/R）、儿童头戴摄像机数据训练（ResNext50-SAY/CVCL）及大规模预训练模型（ViT-DINOv2/CLIP）等15种DNNs；
表征相似性分析：通过KNN等分类器评估模型在物体配对任务中的表现，匹配人类行为数据。

研究结果

Child performance
3岁儿童在100 ms快速呈现下对完整轮廓物体的识别准确率显著高于随机水平（P < 0.007, d > 1.00），但在扰动和删除条件下需更长时间（分别需200 ms和250 ms）。4-5岁儿童在所有条件下均表现优异，但整体仍低于成人（P < 0.001）。年龄与轮廓完整性的交互效应表明，递归神经环路（recurrent processing）可能在幼儿期尚未完全成熟。

Model comparisons
生物启发模型中，递归架构（VoneNet_R）优于前馈模型（VoneNet_FF），但仅匹配3岁儿童在快速任务中的表现。使用儿童视角视频训练的模型（ResNext50-SAY）在扰动条件下优于传统分类模型（ConvNext/ViT），但仅大规模预训练模型（ViT-DINOv2/CLIP）能全面匹配儿童表现。关键发现是：DNNs需接触超过儿童实际经验数倍的图像（如CLIP的4亿张）才能达到相似性能。

Learning objective or scale?
训练规模（ρ = 0.70-0.83）而非学习目标（监督/无监督）是模型性能的主要驱动力。ResNet50-ImageNet21k（1400万图像）显著优于小规模训练模型，但人类在经验量低两个数量级时仍表现更优。

讨论与意义
该研究首次证明幼儿具备远超当前DNNs的视觉鲁棒性，其核心发现包括：

发育机制：4岁儿童已具备成人般的快速物体识别能力，但递归处理（如对删除轮廓的补全）可能持续发育至学龄期；
模型局限：DNNs依赖海量数据（如CLIP）或特定架构（如递归）才能接近儿童水平，暴露出现有模型在泛化性和效率上的缺陷；
理论启示：人类视觉系统可能通过背侧通路（dorsal pathway）的空间编码和前馈-反馈交互等生物机制，以极少样本实现高效学习。

研究为发展类脑人工智能提供了明确方向：未来模型需整合时空连续性处理、多模态（如语言）约束和更生物合理的递归架构。同时，该成果建立了儿童认知发育的新基准，强调神经科学与计算模型的交叉研究对揭示人类智能本质的重要性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号