揭示动态人类动作识别的关键维度:基于768个视频片段的多维空间建模研究

《Communications Psychology》:Revealing Key Dimensions Underlying the Recognition of Dynamic Human Actions

【字体: 时间:2025年10月25日 来源:Communications Psychology

编辑推荐:

  本研究针对人类如何理解他人动作这一核心问题,通过构建包含768段1秒视频(涵盖256个动作类别)的数据库,并收集6,036名参与者的相似性评分,采用稀疏正相似性嵌入(SPoSE)计算模型,首次数据驱动地揭示了动作表征空间的28个关键维度(如互动、运动、手工等)。这些维度不仅涵盖人类动作本身,还涉及生物/非生物实体等相关领域,且通过独立实验验证了维度权重与人工评分的强相关性(r=0.78)。该多维动作空间模型为量化动作相似性、探索动作理解的认知神经机制提供了新范式。

  
在日常生活中,我们每时每刻都在解读他人的行为——从交谈中的手势到通勤路上的步履匆匆。然而,面对同一动作千变万化的执行方式,人类大脑如何迅速且准确地对其进行归类和理解?这一看似简单的能力,实则挑战着认知科学领域的核心难题:动作表征的基本原理是什么?
传统理论认为,动作与物体类似,可被表征为多维空间中的点,动作间的主观相似性由其在该空间中的欧氏距离决定。但现有研究多局限于有限的动作类别,且缺乏系统性的维度挖掘方法,导致对动作表征关键维度的认识仍不完整。为突破这一瓶颈,德国雷根斯堡大学的André Bockes团队联合马克斯·普朗克研究所等机构,在《Communications Psychology》发表了一项开创性研究,首次通过大规模数据驱动方法揭示了人类动作识别的28个核心维度。
为构建高质量研究基础,团队从包含百万视频的Moments in Time(MiT)数据库中筛选出256类人类动作,并利用深度神经网络(ResNet-50)提取每段视频最具信息量的1秒片段,最终建立包含768个标准化视频的“人类动作视频数据库”。
研究核心采用三重“异类识别”任务,通过亚马逊机械土耳其(Amazon Mechanical Turk)平台收集6,036名参与者对1,186,795个视频组合的相似性判断,共获得125万次有效选择。基于这些行为数据,团队应用稀疏正相似性嵌入(SPoSE)模型进行迭代优化,将初始100个潜在维度缩减为28个具有心理学意义的动作维度。
维度特征揭示多层次动作表征
28个维度按权重降序排列,覆盖了从抽象目标导向行动(如手工、言语、运动)到具体实体属性(如人群、儿童、食物)的广泛范畴。通过可视化各维度权重最高的视频(图4)并结合独立参与者标注实验,发现维度标签具有高度一致性(如维度1被标注为“手工”,维度2为“运动”)。值得注意的是,部分维度存在层级结构(如“运动”与“冬季运动”),暗示认知系统可能根据任务需求灵活调用不同抽象层级的特征。
动作特异性维度剖面验证模型有效性
每个动作视频可表示为28维空间中的独特剖面。如图5所示,“平衡”“划船”等动作虽共享“户外”维度,但通过其他维度组合实现区分;而“进食”动作则由“口腔”与“食物”维度共同定义。这种剖面差异为量化动作相似性提供了精确指标。
人工评分与模型权重高度吻合
为验证维度可解释性,21名参与者对20个随机动作视频进行维度典型性评分。结果显示,基于人工评分的相似性矩阵与SPoSE模型权重矩阵的相关系数达0.78(P<0.001),证明模型提取的维度确实被人类潜意识用于动作相似性判断。
关键方法学创新
本研究主要技术路径包括:(1)基于MiT数据库的多步骤视频筛选与标准化处理;(2)通过三重异类识别任务收集大规模行为数据;(3)应用SPoSE模型进行维度降维与特征提取;(4)利用维度命名与评分实验验证模型可解释性。所有数据均通过在线平台(Amazon Mechanical Turk)与实验室实验结合收集。
讨论与展望
本研究建立的28维动作空间模型,不仅整合了既往研究中重复出现的工具使用、食物相关等维度,更拓展至环境、物质、作用力等新范畴。其重要意义在于:
  1. 1.1.
    理论层面:支持“动作理解基于多维特征比较”的假说,为动作分类的层级灵活性提供证据;
  2. 2.2.
    方法层面:开创了动态动作表征的数据驱动研究范式,克服了静态刺激的局限性;
  3. 3.3.
    应用层面:生成的动作相似性量化指标可为神经科学研究提供假设生成框架,例如通过fMRI(功能性磁共振成像)探索不同维度在大脑中的编码区域。
未来研究可进一步探讨维度表征的时空动态性、个体差异(如专家vs新手),以及其与动作因果知识(如脚本、框架理论)的整合机制。该模型为理解人类社会认知的计算基础开辟了新路径。
结论
通过结合大规模行为数据与计算建模,本研究成功绘制出人类动作理解的多维地图,证明28个可解释维度足以捕捉动作相似性判断的认知本质。这一成果不仅深化了对动作表征机制的理解,更为探索动作理解障碍(如自闭症谱系障碍)的认知基础提供了新视角。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号