时序多模态注意力网络(TMAN):基于微宏观行为模式分析的反馈信号检测新方法

【字体: 时间:2025年09月29日 来源:Neurocomputing 6.5

编辑推荐:

  本刊推荐:本研究提出时序多模态注意力网络(TMAN),通过微情境调制(Micro-CM)、统一时序混合器(UTM)和宏情境调制(Macro-CM)三大模块,创新性地整合身体姿态、头部运动、眼球注视和面部动作单元(AU)四类视觉模态,实现对反馈信号(Backchannel)中瞬时微动作与持续宏行为模式的协同感知,为对话式AI(Conversational AI)的非语言交互能力提升提供新范式。

  
亮点(Highlights)
• 提出TMAN神经网络,通过注意力模块联合建模四种视觉模态(身体姿态、头部姿态、眼球注视和面部动作单元)中的手势、表情和运动模式以检测反馈信号
• 对TMAN进行广泛消融研究,严格评估所有注意力模块组合,证明各模块重要性并突显全整合方案的有效性
• 通过全面研究确定最佳TMAN实施设置,包括特征观察窗口、特征转换方法和模态组合,分析其对模型性能的影响
• 深入解析TMAN推理过程,阐释其如何处理视觉模态以实现有效反馈信号检测
结论(Conclusions)
本文介绍了时序多模态注意力网络(TMAN),该网络专为通过多模态视觉线索检测反馈信号而设计。通过采用三阶段注意力架构——微情境调制(Micro-CM)、统一时序混合器(UTM)和宏情境调制(Macro-CM),TMAN有效建模了细粒度"微"动作和更广泛的时序"宏"行为模式。在MPIIGroupInteraction和CCDb两个基准数据集上的综合实验表明,TMAN优于最先进的方法,在MPIIGroupInteraction验证集上达到76.7%的准确率,在CCDb验证集上达到87.8%的准确率,并在MPIIGroupInteraction基准测试集上实现70.1%的准确率。广泛的消融研究验证了所提出模块的有效性,并确定了特征转换和观察窗口的最佳配置。对模型推理过程的深入分析进一步证明了TMAN注意力模块的有效性,特别是在处理多模态视觉线索中的"微"和时序"宏"行为模式方面。TMAN为多模态反馈信号检测建立了新基准,为未来非语言通信解释和对话式AI开发的研究铺平道路。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号