
-
生物通官微
陪你抓住生命科技
跳动的脉搏
AI技术生成多样化视频刺激物在婴儿眼动追踪研究中的应用与验证
【字体: 大 中 小 】 时间:2025年06月21日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对婴儿眼动追踪研究中刺激物文化多样性不足的问题,开发了一种基于AI技术生成多样化视频刺激物的创新方法。研究人员通过对比原始视频与AI生成视频(使用RunwayML和DeepFaceLab两种工具)在46名12-14月龄婴儿中的眼动数据,发现两种刺激物的眼嘴指数(EMI)高度相关(r=0.873-0.874),且婴儿对AI生成视频的视线跟随(GF)行为符合预期。该研究为跨文化发育心理学研究提供了高效、可控的刺激物生成方案。
婴儿如何通过视线探索世界,一直是发育心理学研究的核心问题。眼动追踪技术让科学家能够窥见这些还不会说话的"小观察者"的认知奥秘,但长期以来,研究样本和刺激物的局限性制约了科学发现的普适性。一个不容忽视的现实是,现有婴儿研究数据主要来自欧美白人群体,这种"WEIRD"(Western, Educated, Industrialized, Rich, Democratic)样本偏差可能导致我们对人类早期发展的理解存在系统性偏差。更棘手的是,创造具有文化代表性又严格控制变量的实验刺激物需要耗费大量资源——在不同文化背景下重新拍摄完全一致的视频几乎是不可能完成的任务。
瑞典乌普萨拉大学的发展与神经多样性实验室和儿童婴儿实验室的研究团队在《Scientific Reports》发表了一项开创性研究,他们尝试用人工智能(AI)技术破解这一难题。研究人员设想:如果能够通过AI修改演员外貌而保留原始视频的动作和声音,就能快速生成文化多样的刺激物。但一个关键问题悬而未决——婴儿会对这些"数字演员"做出与真实人类相同的反应吗?
研究团队设计了两组经典实验来验证这一设想。第一组采用眼嘴指数(EMI)范式,测量婴儿注视眼睛与嘴巴的时间比例;第二组采用视线跟随(GF)范式,检测婴儿是否会跟随视频中人物的视线方向。研究人员使用RunwayML和DeepFaceLab两种AI工具,基于瑞典儿歌演唱视频生成了不同人种特征的改编版本。通过对比46名12-14月龄婴儿对原始视频和AI视频的反应,他们发现两组刺激物引发的EMI相关性高达0.87以上,且GF行为在AI条件下与预期完全一致。
关键技术方法包括:使用Tobii TX300眼动仪(120Hz)采集数据;通过OpenFace软件自动识别面部特征并创建动态兴趣区(AOI);采用RunwayML Gen-3 Alpha和DeepFaceLab生成AI视频;计算EMI(注视眼睛时间/[注视眼睛+嘴巴时间])和GF差异分数(一致与不一致注视次数的差值)。所有视频前10秒用于分析,确保时长一致。
Eye-mouth-index(EMI)条件的结果
研究发现婴儿观看原始视频与两种AI视频时的EMI具有极强相关性(RunwayML版r=0.873,DeepFaceLab版r=0.874),这一相关性甚至高于不同真人演员视频间的EMI相关性(r=0.79)。虽然RunwayML生成的AI视频引发略高的EMI均值(0.60 vs 原始0.54),但贝叶斯分析显示这种差异不具有决定性意义。值得注意的是,DeepFaceLab版本因保留了更多原始面部特征,其EMI均值(0.52)与原始视频几乎完全一致。
Gaze following(GF)条件的结果
在更复杂的视线跟随任务中,婴儿对AI生成的不同人种演员表现出典型的GF行为,平均差异分数达2.56(满分6分),显著高于随机水平。与实验室过往使用的非AI视频相比,GF表现无显著差异,证实AI视频能有效引发预期社会注意行为。
这项研究首次系统验证了AI生成刺激物在婴儿研究中的可行性,为发育心理学研究开辟了新路径。通过AI技术,研究人员能够在保留关键行为特征的前提下,快速生成文化适配的刺激物,这对解决心理学研究的"多样性危机"具有重要意义。研究还揭示了一个有趣现象:尽管成人能明显区分AI生成内容,但婴儿对这些数字刺激物的反应模式与真实人类无异,这暗示婴儿社会认知系统可能更关注行为特征而非表面细节。
未来研究需要探索这种方法在不同年龄段的适用边界,以及如何优化AI工具生成更自然的动态表情。随着技术进步,这种"数字演员"方案不仅可用于跨文化比较,还能帮助研究者精确控制实验变量,如微调动作时序或表情强度,从而揭示婴儿社会认知发展的精细机制。这项成果标志着婴儿研究迈向"全球化"和"精准化"的重要一步。
生物通微信公众号
知名企业招聘