HARMONI:开启人类行为研究新视界,解锁 3D 视频分析的无限可能

【字体: 时间:2025年02月20日 来源:SCIENCE ADVANCES 11.7

编辑推荐:

  为解决人工分析儿童与照顾者互动视频效率低、难以捕捉 3D 行为细节等问题,斯坦福大学研究人员开展 HARMONI 技术研究。结果显示其能精准量化 3D 行为。推荐阅读,助您了解前沿技术如何革新人类发展研究。

  
在人类生命的早期阶段,大脑就像一块充满可塑性的神奇橡皮泥,正经历着飞速的发展变化。在这个过程中,孩子与照顾者之间的互动,就像是一双双温柔的手,不断塑造着大脑的发育轨迹。想象一下,孩子牙牙学语时的每一声呢喃,和照顾者玩耍时的每一个动作,都可能在大脑中留下独特的印记,影响着未来的成长。

为了探究这些互动背后的奥秘,发展科学家们一直努力记录孩子们成长过程中的各种能力变化。随着视频技术的进步,大量记录孩子和照顾者互动的视频涌现,就像是打开了一座装满宝藏的仓库,里面藏着无数关于成长的秘密。然而,想要从这些视频中挖掘出有价值的信息,却困难重重。传统的人工编码方式,就像是拿着一把小小的勺子在大海里捞针,需要耗费大量的时间和金钱。研究人员要一帧一帧地观看视频,手动标注各种行为,不仅效率低下,还限制了大规模定量分析的开展,使得研究的深度和广度都大打折扣。而且,这种方式也让样本的多样性受到影响,就像只看到了大海里的一小片区域,难以全面了解整个海洋的奥秘,最终导致基础科学研究成果很难应用到实际生活中,比如儿科护理、幼儿教育和家庭养育等场景。

为了解决这些难题,来自斯坦福大学的研究人员在《Science Advances》期刊上发表了一篇名为《HARMONI: A 3D computer vision and audio approach for large-scale analysis of human behavior from observational videos》的论文。他们研发出了一种名为 HARMONI(从自然互动观察视频中进行响应性人类运动的整体 3D 分析)的技术,就像给研究人员配备了一把神奇的钥匙,能够轻松打开视频数据宝藏的大门,为人类发展研究带来了新的曙光。

研究人员在这项研究中使用了多种关键技术方法。在视觉分析方面,HARMONI 先对视频进行预处理,利用一些算法识别出视频中人物的轨迹片段。接着,通过深度神经网络预测人体网格,再经过优化和滤波处理,让预测结果更加精准。在音频分析上,采用了两个开源模型 VBHMM x-vectors Diarization(VBx)和 Automatic LInguistic Unit Count Estimator(ALICE),它们相互配合,能够从音频中提取出丰富的信息,比如说话者的身份、对话轮次等。此外,还运用了混合效应模型等统计方法,来分析各种行为变量随时间的变化趋势 。

下面来看看 HARMONI 都带来了哪些令人惊喜的研究成果。

  • AI 助力提取 3D 网格模型:HARMONI 就像一个拥有超能力的数字艺术家,能够自动从视频中提取出孩子和照顾者的 3D 网格模型。它先通过人体追踪和分类,锁定目标人物,再利用特定的人体模型和深度神经网络,估算出模型参数,从而构建出 3D 人体网格。为了让这个模型能更好地适应不同环境的视频数据,研究人员还为它添加了一个环境针对性合成训练数据生成模块。就好比给模型配备了一个智能学习助手,能根据新环境的特点自动生成训练数据,让模型不断学习进步。最后,再通过优化算法,让生成的 3D 人体网格更加符合实际情况。
  • 量化个体行为:有了 3D 网格模型这个强大的工具,研究人员就能像侦探一样,从视频中挖掘出各种描述人类行为的客观指标。他们把 HARMONI 应用到 SEEDLingS 数据集的 500 小时视频中,发现随着孩子的成长,他们在房间里移动的距离越来越长,就像探索世界的脚步越来越远;而照顾者移动的距离却逐渐减少。在孩子的姿势方面,成长过程中,孩子保持直立姿势的时间明显增加,不过在其他姿势(如坐着、趴着、仰卧)上,并没有发现与年龄相关的显著变化趋势。这就好像孩子在成长过程中,慢慢学会了站起来,去探索更广阔的世界。
  • 量化二元行为:研究人员还进一步探究了孩子和照顾者之间的互动行为。结果发现,随着孩子长大,他们与照顾者身体接触的时间逐渐减少,就像孩子慢慢变得独立,不再像小时候那样依赖亲密的身体接触。在可见性和相对距离方面,研究并没有发现随着孩子年龄增长而出现的明显变化。这可能意味着,即使孩子和照顾者之间的身体接触减少了,但他们之间的关注和联系依然保持在一个相对稳定的状态。
  • 量化多模态视听交互:HARMONI 还有一个厉害的功能,就是能够将视觉分析和音频分析结合起来,探索多模态视听交互的奥秘。研究人员发现,孩子发起对话的时长和他们在房间里的独立移动距离之间存在着有趣的关联,孩子主动发起对话的时间越长,移动的距离往往也越远。不过,这种关联在照顾者身上并没有体现出来。这就像是孩子在表达自己想法的同时,也迫不及待地想要用行动去探索周围的世界。
  • HARMONI 与人工标注的一致性:为了验证 HARMONI 的准确性,研究人员将它生成的 3D 网格模型与人工标注进行了对比。在 SEEDLingS 数据集上,HARMONI 在儿童和照顾者的 2D 关键点标注上,分别与人工标注达到了 63.8% 和 80.0% 的一致性。在判断触摸和可见性等行为时,也有较高的一致性。而在 CMU Panoptic-Toddlers 数据集上,HARMONI 的表现更加出色,在照顾者和儿童的 2D 关键点标注上,一致性分别高达 97% 和 74.3%,在触摸和可见性的判断上,准确率也分别达到了 84% 和 93%。这表明 HARMONI 就像一个可靠的助手,能够在很大程度上替代人工标注,而且还更加高效准确。

通过这些研究结果,HARMONI 展现出了巨大的优势和潜力。它能够以亚秒级的分辨率,从大量视频数据中自动提取出精细、客观且多模态的人类行为指标,极大地减少了人工干预,降低了人力成本。利用 HARMONI 分析视频数据,不仅速度快,而且能够获取到以往手动方法或 2D 技术无法得到的详细信息,为研究人员打开了一扇全新的研究大门。

从更广泛的角度来看,HARMONI 的出现为人类发展研究带来了革命性的变化。它可以让研究覆盖更多不同背景的人群,扩大研究规模,让研究结果更具普遍性和代表性。而且,这种技术不仅仅局限于研究孩子和照顾者之间的互动,还可以应用到其他涉及人类行为分析的领域,比如行为儿科学、行为科学的其他分支、人口健康研究以及临床护理等。就像给各个领域的研究人员都提供了一把万能钥匙,帮助他们打开新的研究思路,探索更多未知的领域。

总的来说,HARMONI 的研发和应用,就像是在人类行为研究的道路上点亮了一盏明灯,为我们照亮了前行的方向。它让我们对人类互动的模式有了更深入的理解,也为促进儿童发展研究的公平性提供了有力支持。随着这种技术的广泛应用,未来有望在各个领域引发更多新的研究和发现,推动人类对自身行为和发展的认识不断向前迈进,让我们更好地理解人类成长和互动的奥秘,为改善人们的生活和社会发展做出贡献。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号