基于情感感知CLIP模型的面部表情识别:多模态融合与实例增强分类器创新

《ARTIFICIAL INTELLIGENCE REVIEW》:Emotion-aware adaptation of CLIP model for facial expression recognition

【字体: 时间:2025年12月29日 来源:ARTIFICIAL INTELLIGENCE REVIEW 13.9

编辑推荐:

  本研究针对面部表情识别(FER)中因细节变化细微及无约束条件导致的识别挑战,提出了一种情感感知自适应框架EA-CLIP。通过引入Expression-aware Adapter(EAA)模块进行轻量级任务特定微调,结合Instance-enhanced Expression Classifier(IEC)模块利用球面线性插值整合实例视觉嵌入,在RAF-DB、AffectNet和ExpW三个野生数据集上分别达到92.48%、67.07%和74.81%的识别准确率,显著提升了细粒度情感特征的捕捉能力,为多模态情感计算提供了新思路。

  
在人工智能与人机交互蓬勃发展的今天,面部表情作为人类情感传递的核心载体,其自动识别技术已成为医疗诊断、智能驾驶、人机交互等领域的关键支撑。然而,由于面部肌肉运动的微妙性、光照变化、头部姿态偏移以及遮挡物干扰等因素,传统面部表情识别(Facial Expression Recognition, FER)系统在真实场景下的表现仍不尽如人意。现有方法多局限于视觉模态分析,忽视了文本模态蕴含的丰富语义信息,且通用分类模板难以捕捉实例特异性特征,导致对"惊讶"、"厌恶"等细微表情的区分能力不足。
针对这一瓶颈,发表于《Artificial Intelligence Review》的最新研究提出了一种革命性的解决方案——情感感知自适应CLIP框架(EA-CLIP)。该研究创新性地将视觉-语言预训练模型CLIP(Contrastive Language-Image Pretraining)引入FER领域,通过双模块协同机制突破传统方法的局限。研究团队发现,CLIP模型固有的物体中心偏见使其更关注宏观面部特征,而忽略了对表情识别至关重要的微观肌肉运动细节。此外,通用文本提示模板如"一张[类别]的照片"无法适应不同个体面部结构的特异性,导致细粒度判别能力受限。
为克服这些挑战,EA-CLIP框架设计了表达感知适配器(Expression-aware Adapter, EAA)和实例增强表达分类器(Instance-enhanced Expression Classifier, IEC)两大核心模块。EAA模块通过注入轻量级瓶颈结构到CLIP视觉编码器的每个Transformer块,在保留预训练知识的同时实现任务特定微调。具体而言,该模块在多头自注意力层后引入降维-激活-升维的适配器结构,通过可调节的适配因子α平衡通用知识与表情特征学习。IEC模块则创新性地采用球面线性插值(Slerp)技术,将实例特定的视觉嵌入动态融合到文本描述符中,生成更具判别力的分类器。这种双管齐下的策略使模型既能捕捉眉毛轻挑、嘴角微颤等细微表情特征,又能适应不同个体的面部独特性。
关键技术方法包括:1)基于ViT-B/16架构的CLIP模型迁移学习;2)插入视觉编码器的轻量级EAA适配器设计;3)通过球面线性插值实现视觉-文本特征融合的IEC分类器;4)在RAF-DB(12,271训练样本)、AffectNet(280,000训练样本)和ExpW(68,845训练样本)等真实世界数据集上的系统性验证。
4.3 与最先进方法的比较
在RAF-DB数据集上,EA-CLIP以92.48%的准确率超越所有对比方法,较CNN基准方法提升0.66-5.58%,较ViT方法提升0.5-4.34%。特别在遮挡数据集(Occlusion-RAF-DB)和大姿态数据集(Pose-RAF-DB)上分别达到90.15%和91.78%的识别率,证实其对复杂场景的强鲁棒性。在更具挑战的AffectNet数据集上,该框架在7分类和8分类任务中分别取得67.07%和62.68%的准确率,虽略低于CEPrompt方法0.16%,但参数量仅为其46%,展现更优的效能比。
4.4 消融研究
模块有效性验证显示,单独使用EAA可使RAF-DB基准提升2.08%,IEC单独使用提升1.92%,而双模块协同作用带来最大增益。提示词优化实验表明"一个带有[类别]表情的人"比传统提示词提升0.95%准确率。超参数分析确定适配因子α=0.7、角度因子γ=0.9时模型性能最优。
4.7 注意力可视化
通过ScoreCAM可视化对比发现,原始CLIP模型注意力分散于面部边缘等无关区域,而EA-CLIP能精准聚焦于嘴角提肌、鼻唇沟等表情关键区域。例如在"厌恶"表情识别中,模型成功关注到鼻肌收缩特征,证实其细粒度特征捕捉能力。
这项研究的重要意义在于开创了多模态自适应框架在细粒度情感识别中的应用范式。通过解耦CLIP模型的物体中心偏见,EA-CLIP不仅显著提升了对微妙表情的判别精度,更建立了视觉-文本特征动态融合的新标准。该工作为医疗诊断中的情绪障碍评估、智能驾驶中的疲劳状态监测等需要高精度情感感知的场景提供了技术基石,同时为跨模态学习、参数高效迁移等研究方向开辟了新路径。未来研究可进一步探索该框架在零样本学习、跨文化表情识别等更复杂场景下的应用潜力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号