面部表情识别(FER)是计算机视觉中的核心任务,旨在通过面部表情解读人类情绪[1]。随着深度学习的进步,FER在医疗保健[2]、教育[3]和智能驾驶[4]等多个领域展现出巨大潜力。为了促进FER在现实环境中的应用,已经开发了多个大规模数据集,如AffectNet[5]、RAF-DB[6]、FERPlus[7]和FED-RO[8],这标志着FER研究从受控实验室环境向复杂自然场景的转变。然而,尽管FER系统在理想条件下表现良好(图1(a)),但在涉及部分遮挡(图1(b))和非正面面部姿态(图1(c))的自然环境中,其准确率会急剧下降,这些因素对计算机视觉模型提出了更高要求。
卷积神经网络(CNN)作为主要的图像特征提取工具,已被广泛应用于FER任务。然而,在面对噪声、光照变化和样本不平衡等自然环境挑战时,CNN往往难以聚焦于关键面部区域[9]。相比之下,人类视觉系统结合了局部和全局信息来准确捕捉面部表情细节[10]。尽管一些研究尝试分别提取局部和全局特征,并探索了多种局部区域划分策略[12],[13],但最近的研究通过双流交叉融合设计[66]、渐进式层次特征融合[67]和层次化全局-局部交叉融合架构[68]进一步推进了局部-全局特征融合。然而,大多数现有方法仍缺乏明确的语义引导,这限制了在无约束场景下的细粒度区域建模。
为了使CNN能够像人类视觉系统一样关注关键面部区域,提出了多种注意力机制,如SENet[14]、CBAM[15]和坐标注意力[16]。这些方法增强了关键区域的特征响应,在一般的视觉识别任务中表现良好。然而,在FER中,细粒度特征提取仍然不足。此外,高类别间相似性和类别内变异性也给FER带来了挑战。例如,“悲伤”和“厌恶”表情通常表现出相似的面部肌肉运动,如眉毛皱缩和嘴角下垂,而文化差异进一步增加了识别的复杂性。因此,在类别间区分度和类别内紧凑性之间取得平衡成为FER的关键挑战。尽管一些研究通过判别性特征学习提高了模型性能[17],[18],[19],但这些方法主要依赖注意力机制,仍然难以有效学习同时捕捉类别内相似性和类别间差异性的深度特征表示,导致性能瓶颈持续存在。
为了解决这些问题,本文提出了AUNet,这是一种基于动作单元(AU)的局部-全局层次交互网络,旨在提升FER在自然环境中的鲁棒性。AUNet包含两个主要分支:(1)全局特征提取分支,其中包含动态的局部-全局交互注意力(LGIA)模块,以加强全局特征与局部特征之间的交互,确保在全局特征提取过程中保留关键信息。受Ekman等人提出的面部动作编码系统(FACS)[20]的启发,进一步引入了情感感知的对比损失函数,以扩大类别间距离同时最小化类别内距离。(2)局部特征分支,基于AU强度解释[21],将面部划分为四个关键区域——眼睛、嘴巴、眉毛和鼻子,并从每个区域提取特征,即使在遮挡或非正面姿态下也能保持对信息区域的关注,从而增强局部特征的贡献。
本文的主要贡献如下:
(1)提出了一种分辨率自适应的四区域面部划分策略,有效缓解了由情绪相似性引起的类别间混淆。
(2)引入了LGIA模块,动态平衡局部细节和全局语义,增强了遮挡和非正面姿态条件下的特征互补性。
(3)开发了情感感知的对比损失(EACLoss)函数,以提高类别间区分度和类别内紧凑性。
(4)AUNet在多个基准数据集上实现了最先进的性能,包括AffectNet-7、RAF-DB、FERPlus和FED-RO。消融和可视化研究进一步验证了每个提出组件的协同效果。
本文的其余部分组织如下:第2节回顾相关工作,第3节介绍AUNet的架构,第4节展示实验结果和分析,第5节总结本文。