基于动量原型中心学习的动态面部表情识别新框架:挖掘非目标帧的过渡线索价值

【字体: 时间:2025年07月26日 来源:Digital Signal Processing 2.9

编辑推荐:

  推荐:针对动态面部表情识别(DFER)中非目标帧信息利用率低的难题,研究人员提出动量原型中心学习框架(PCM),通过原型伪标签生成器(PPG)和局部-全局时序编码器(LGTFE)模块,有效挖掘非目标帧的过渡语义线索,在DFEW等三大数据集上实现SOTA性能,为6G时代情感计算提供新范式。

  

在人工智能与情感计算快速发展的今天,动态面部表情识别(Dynamic Facial Expression Recognition, DFER)技术已成为人机交互、心理健康评估等领域的核心技术。然而现实场景中,面部表情往往呈现从非目标状态(如中性表情)向目标情绪(如愤怒)的渐进式过渡,现有方法却简单丢弃这些"非目标帧",导致关键过渡语义信息丢失。更棘手的是,局部面部区域(如皱眉肌)可能比整体表情更早显现情绪特征,这种微观动态同样未被现有模型充分捕捉。

针对这一双重挑战,中国国家自然科学基金支持的研究团队在《Digital Signal Processing》发表创新成果。该研究提出动量原型中心学习框架(Prototype-Centered Learning, PCM),其核心突破在于:首次系统论证非目标帧的过渡线索对DFER的增强作用,并通过两个关键技术实现——基于动量更新的原型伪标签生成器(PPG)动态挖掘非目标帧的潜在语义;局部-全局时序编码器(LGTFE)同步捕捉眉间纹等局部微表情和整体表情演变规律。实验表明,该框架在DFEW、MAFW等真实场景数据集上显著超越传统方法,尤其对"压抑愤怒"等复杂情绪的识别准确率提升显著。

关键技术方法包括:1) 采用CLIP视觉编码器提取帧级特征;2) PPG模块通过指数移动平均更新类原型,生成非目标帧伪标签;3) LGTFE模块通过区域注意力机制提取局部动态特征,再与全局时序特征融合;4) 使用DFEW等三个包含自然场景视频的基准数据集验证。

【研究结果】
• 原型伪标签生成:PPG模块通过动量更新策略使类原型逐步逼近真实类别中心,实验显示该方法使非目标帧伪标签准确率提升23.7%。
• 局部-全局特征融合:LGTFE模块中,区域特异性建模使"眼周肌肉收缩"等细微变化的检测灵敏度提高18.2%,全局注意力机制则有效捕捉表情演变轨迹。
• 跨数据集验证:在FERV39k上的跨域测试中,PCM对"强光遮挡"场景的鲁棒性较3D-Inception-ResNet提升31.4%,证实其泛化能力。

该研究开创性地将医学领域"症状前兆"分析思路引入DFER,证明非目标帧实为情绪转化的"语义路标"。其提出的PCM框架不仅刷新多项基准记录,更启示未来研究:情感计算需关注情绪产生的动态过程而非静态快照。这项成果为6G时代实时情感交互系统提供了关键技术支撑,尤其在远程心理健康监测等场景具有重大应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号