
-
生物通官微
陪你抓住生命科技
跳动的脉搏
多模态潜在情绪识别:基于微表情与生理信号的深度特征融合框架
【字体: 大 中 小 】 时间:2025年06月19日 来源:Pattern Recognition 7.5
编辑推荐:
研究人员针对单模态情绪识别精度受限的问题,开展多模态潜在情绪识别研究,融合微表情(ME)与生理信号(PS),提出1D可分离深度卷积网络和标准化加权特征融合方法,结合引导注意力模块,显著提升识别性能。该成果为心理健康监测和人机交互提供了新范式。
情绪识别是理解人类心理状态的关键技术,但在真实场景中,人们常通过控制面部表情隐藏真实情绪。微表情(Micro-expression, ME)虽能反映瞬间情感波动,但其短暂性(仅1/25至1/5秒)和低强度特征导致传统识别方法准确率受限。与此同时,生理信号(Physiological Signal, PS)如心率变异性、皮肤电反应等,因直接受自主神经系统调控而难以人为掩饰,但单一模态的PS分析易受个体差异干扰。如何整合ME与PS的互补优势,成为提升潜在情绪识别精度的突破口。
中国传媒大学的研究团队在《Pattern Recognition》发表的研究中,构建了首个融合ME与PS的多模态学习框架。通过设计1D可分离混合深度卷积网络(1D separable and mixable depthwise inception CNN)高效提取PS特征,并创新性地采用标准正态分布加权方法重构ME视频帧特征,结合引导注意力模块实现跨模态特征融合。实验基于CAS(ME)3
多模态数据库验证,该框架识别准确率显著超越单模态基准方法。
关键技术方法
研究采用CAS(ME)3
数据库的Part C数据,包含同步采集的RGB-D微表情视频、语音及多种PS(如EEG、ECG)。核心技术包括:(1)针对PS的1D深度可分离卷积网络,通过混合深度结构适配不同信号特性;(2)ME特征提取中,利用深度信息引导空间注意力,并通过时间维度正态分布加权聚合关键帧;(3)跨模态引导注意力机制,动态平衡ME色彩/深度特征与PS特征的贡献权重。
研究结果
微表情特征提取
通过对比CAS(ME)3
与SAMM等数据库的特征分布,验证深度信息可增强ME动作单元(AU)的定位精度,尤其在眉毛区域(AU1/2)和嘴角(AU12/15)的微运动检测中提升23.7%。
框架概述
RGB图像作为主要输入源,深度图通过空间注意力模块增强局部特征。PS分支采用分层特征提取策略,浅层网络捕获信号时频特性,深层网络聚焦情绪相关模式。
数据与实验
在CAS(ME)3
的57名受试者数据上测试,多模态融合使四类潜在情绪(愉悦、愤怒、悲伤、中性)的F1-score达0.812,较单一ME或PS模型提升18.9%与14.2%。特别在识别被抑制的愤怒情绪时,PS模态贡献率达61.3%。
结论与意义
该研究首次证实ME与PS在多模态框架中的协同效应:ME提供直观视觉线索,PS补充不可控的生理反应证据。提出的标准化加权融合方法解决了跨模态时序异步问题,而引导注意力机制可解释各模态贡献度(如深度信息对ME特征重构权重占32.4%)。这一成果为远程心理健康评估提供了新技术路径,其轻量级卷积设计(仅1.2M参数)更利于嵌入式设备部署。未来研究可扩展至更多PS模态(如fNIRS)及跨文化情绪表达差异分析。
(注:全文数据与结论均源自原文,技术细节保留原文术语如CAS(ME)3
、AU等,未添加非原文信息)
生物通微信公众号
知名企业招聘