共享阅读语料库:44对照顾者-婴儿多模态互动的视听数据集及其在早期发展研究中的价值
《Scientific Data》:The Shared Book Reading Corpus: An audiovisual collection of 44 multimodal caregiver-infant interactions
【字体:
大
中
小
】
时间:2025年10月01日
来源:Scientific Data 6.9
编辑推荐:
【编辑推荐】为解析多模态互动在婴儿早期发展中的作用,研究人员构建了“共享阅读语料库”。该资源包含44对英语照顾者-婴儿(13-14月龄)在实验室环境下的共享阅读视听记录,采用全景摄像机与头戴式摄像机(照顾者44例/婴儿29例)同步采集三方视角,辅以详细的照顾者语音转录、CDI词汇量评估和QPOINT指向手势数据。该数据集通过Databrary平台共享,为研究早期社会互动中的手势、注视、面部表情等多模态行为提供了高精度分析基础。
在生命最初的旅程中,婴儿并非孤立地成长,而是沉浸在充满动态互动的多模态环境中。照顾者的手势、眼神、面部表情和语调,与婴儿的咿呀学语、手指动作和目光交汇,共同编织成一幅复杂的早期发展图景。这些多模态行为(multimodal behaviors)不仅是沟通的桥梁,更是认知、语言和社会情感能力发展的关键驱动力。尽管过去数十年的研究已揭示多模态互动对早期发展的重要性,但科学界始终面临一个核心挑战:如何精准捕捉并分析这些转瞬即逝、却又蕴含丰富信息的真实互动场景?
共享阅读(shared book reading)作为婴幼儿日常生活中的重要活动,为研究此类互动提供了理想窗口。这种看似简单的亲子活动,实则是语言输入、视觉注意力分配和社交互动的复杂结合。然而,现有研究多局限于音频记录或单视角视频,难以全面解析互动中多方参与者的行为细节。更关键的是,缺乏一个整合多视角视听数据、详细行为标注与发展指标的高质量开放数据集,阻碍了我们对早期多模态互动机制的深入理解。
正是在此背景下,由英国华威大学心理学系Teruni Ahamat领衔的研究团队在《Scientific Data》上发表了题为“共享阅读语料库”的数据描述论文。该研究构建了一个独特的视听数据集,系统收录了44对英语照顾者-婴儿(13-14月龄)在受控实验室环境下的共享阅读互动。研究团队采用多角度同步录制策略:全景摄像机捕捉互动全貌,而照顾者与婴儿佩戴的头戴式摄像机则分别记录其第一人称视角。这种设计首次实现了对阅读互动中双方视觉体验、手势交流与面部表情的同步高精度捕获。
为构建这一数据集,研究团队采用了多项关键技术。在数据采集阶段,使用佳能EOS 250D数码单反相机作为全景摄像机,配合罗德VideoMic Pro R麦克风录制高质量音频;照顾者与婴儿均佩戴大疆Action 2头戴式摄像机,其中婴儿头带经过定制以适应小头围。数据处理环节,采用基于WhisperX的自动语音识别系统对照顾者语音进行时间戳转录,并利用Spleeter工具进行人声与背景音分离以确保转录准确性。此外,研究还整合了规范的发育评估工具:通过英国沟通发展量表(UK-CDI)评估婴儿词汇发展,使用QPOINT问卷测量指向手势,并通过UK-CDI家庭问卷收集详细的人口统计学和社会经济信息。所有数据均通过Databrary平台进行安全共享,实行严格的访问控制机制。
本研究采用观察性研究设计,结合照顾者报告测量。44对英语照顾者-婴儿(平均月龄13.74个月)在实验室阅读《First 100 Words》图画书,平均互动时长为7.74分钟。除8对因未同意数据共享或技术问题被排除外,最终纳入的44对均包含全景和照顾者头戴视角,其中29对额外获得婴儿头戴视角。
样本以白人英国/爱尔兰裔(86.3%)为主,照顾者教育程度较高(88.7%拥有大学及以上学历),家庭年收入多超过42,000英镑(86.4%)。所有婴儿为典型发育,家庭以英语为主要交流语言。
语料库采用标准化文件命名与存储结构。每个参与者拥有独立文件夹,包含三方视角视频、音频文件和照顾者语音转录文本。问卷数据集中存储,涵盖人口统计学、词汇量与手势发展指标。
语音转录经自动生成后人工校验,确保100%准确性。视频数据经过质量检查,婴儿头戴视角在29个会话中完整记录,其中12个全程佩戴,17个部分时段佩戴。
语料库存储于Databrary平台(Volume 184451),实行分级访问控制。研究者需通过机构伦理审核方可申请使用,公共文件可预览数据概览。
该语料库的创新性体现在三个方面:首先,多视角设计突破了传统单视角录制的局限,使研究者能同步分析互动双方的行为细节;其次,高保真的视听记录为计算机视觉、语音分析等计算方法的引入提供了可能;最后,发育指标与行为数据的结合,为探讨个体差异与互动模式的关系奠定了基础。
尽管存在样本同质性较高、实验室环境可能影响行为自然性等限制,该语料库仍为发展科学提供了重要资源。其价值不仅体现在对共享阅读互动的精细描述,更在于为验证“具身学习”等理论假设、开发以婴儿为中心的人工智能模型提供了数据支撑。随着多模态研究范式的深化,这一资源有望推动我们对早期社会互动复杂机制的解析,进而为促进儿童健康发展提供科学依据。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号