多语境伴随手势的丰富注释数据集:GESRes助力人机交互与沟通研究

《Scientific Data》:A richly annotated dataset of co-speech hand gestures across diverse speaker contexts

【字体: 时间:2025年11月07日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对手势沟通的复杂性,推出了GESRes数据集,涵盖2373个来自讲师、政治家和心理治疗师的多样化手势,首次系统标注了手势类型(如隐喻性、指示性)、149种手势词位(lexeme)及3D姿态数据。该资源解决了现有数据集在跨领域样本与多模态注释上的不足,为心理学、语言学和虚拟人手势生成提供了高质量基准,显著推动了多模态沟通研究的可重复性与自动化进程。

  
当我们交谈时,双手总会不自觉地舞动——这些手势或许在强调观点,或许在描绘抽象概念,甚至能微妙传递情感。然而,手势的复杂性使其成为沟通研究中一块难啃的硬骨头:每只手臂涉及18个关节的自由度,且缺乏像面部动作单元(Action Units)那样标准化的描述体系。更棘手的是,不同人群(如教师、政治家、临床医生)在不同语境下的手势模式差异显著,而现有数据集多局限于单一手势类别或少量样本,难以支撑跨领域比较。
为解决这一难题,格拉斯哥大学与东北大学的研究团队在《Scientific Data》发表了题为“A richly annotated dataset of co-speech hand gestures across diverse speaker contexts”的研究,推出了GESRes(Gesture Exploration and Synthesis Resource)数据集。该研究首次系统采集了9名演讲者(包括大学讲师、政治家和心理治疗师)在真实场景中的2373个手势,并通过多维注释与3D姿态追踪,构建了迄今最全面的伴随手势资源。
研究方法的核心技术
研究团队从公开视频中筛选了12段总时长近4小时的素材,使用ELAN工具对手势进行16类属性标注,包括手势类型、词位、肢体物理属性(如手部高度、轨迹)等。为增强数据可用性,他们通过MediaPipe提取了33个身体关节点和21个手部关节点的3D姿态数据,并采用动态时间规整(DTW)算法验证手势词位的物理一致性。此外,通过Gwet's AC1/AC2系数评估了标注者间与标注者内可靠性(均高于0.8),确保了数据的可重复性。
研究结果
1. 数据概览与手势类型分布
数据集包含45.74%的节拍性手势(beat gestures)和37.56%的隐喻性手势(metaphoric gestures),且不同职业演讲者的手势模式差异显著:政治家手势频率更高,而心理治疗师更多使用包容性手势(如“容器”手势)。
2. 物理属性标准化描述
研究定义了手势的4类空间属性(高度、距离、手臂旋转角、径向方位)和39种手部形态(如握拳、精确抓握),并通过可视化词典(lexeme)统一了手势形态描述。
3. 新手势词位的发现
团队从文献中整合了69个已知手势词位,并在标注过程中新增97个未记录词位(如“扩展容器”手势),最终形成包含149个词位的手势词典,显著扩展了手势研究的分类体系。
4. 技术验证与数据可靠性
通过DTW算法对手腕3D轨迹相似性分析显示,75%以上的词位内部一致性高(如右利手手势的标准化互信息NMI达0.66),证实了人工标注的物理基础可靠性。
结论与意义
GESRes数据集通过融合多模态注释与3D追踪数据,突破了传统手势数据集在样本多样性与注释深度上的局限。其价值体现在三方面:
  1. 1.1.
    推动手势生成技术:为基于大语言模型(LLM)的手势合成提供了丰富的物理-语义映射样本;
  2. 2.2.
    赋能自动化标注:可通过机器学习加速手势识别流程;
  3. 3.3.
    深化心理学与语言学探索:为隐喻性手势、跨文化手势比较等前沿问题提供大规模实证基础。
    这一资源不仅填补了多模态沟通研究的数据空白,更为人机交互、虚拟代理设计等领域建立了新基准。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号