面部表情识别(FER)在情感计算中起着核心作用,它使机器能够解释非语言线索,从而支持人机交互、虚拟代理和行为分析等领域(Ghazouani,2023)。早期的FER系统主要依赖于手工制作的特征(Sidhom, Ghazouani, & Barhoumi,2022),如几何标志点和基于纹理的描述符(例如LBP、HOG),这些特征在多种条件下往往难以泛化。深度学习(Zhou, Guo, Jiang, Wang, & Jing,2025b;Zhou, Pei, Si, Qin, & Heng,2025c;Xue, Wang, & Guo,2021;Liu等人,2024b;Liu等人,2024a)的出现彻底改变了这一领域,使模型能够直接从原始面部图像中学习层次化的数据驱动表示。这一范式转变显著提高了性能,尤其是在遮挡、姿势变化和光照变化等具有挑战性的条件下(Liu, Wang, Yang, & Wang,2021),使深度学习成为当代FER研究的基石(Boughanem, Ghazouani, & Barhoumi,2023)。传统上,FER模型专注于识别基本情绪(快乐、悲伤、愤怒、恐惧、惊讶、厌恶和中性),这些情绪是根据Ekman的普遍情绪理论(Ekman & Friesen,1971)定义的。这些情绪通常使用面部动作编码系统(FACS)中的动作单元(AUs)进行标注。然而,这种简化的表示方式无法反映现实生活中表情的丰富性和模糊性。在自然无约束的情境中,人们经常表现出两种或更多基本情绪的混合表情。例如,当面对令人不安或威胁的情况时,一个人可能会表现出厌恶和恐惧的混合情绪;或者在收到意外的好消息时,可能会表现出喜悦和惊讶的混合情绪。这些复合表情反映了微妙的情感细微差别,提供了对人类情感行为复杂性的更准确表示。因此,FER的范围已经扩展到包括BFER和CFER(Du, Tao, & Martinez,2014a),将基本情绪和混合情绪的识别视为独立的任务。
将基本表情和复合表情的识别视为独立问题忽略了现实世界中观察到的面部情感的连续性和相互关联性。最近的研究(Jiang, Wang, Xiao, Hu, & Deng,2024)表明,仅针对某一任务训练的模型在另一任务上的泛化能力较差。例如,仅用于识别基本情绪的FER模型在评估复合表情时的性能会大幅下降(从85.6%降至0.75%)。这种限制源于复合表情并非基本情绪的简单叠加,而是反映了非线性和微妙的面部线索的叠加。相反,仅针对复合表情优化的模型编码了混合的情感语义,导致它们无法可靠地恢复单一的主导基本情绪;在这种情况下,性能也出现了显著下降(从51.1%降至6.4%)。这些观察结果表明,对于实际的FER任务来说,单独的建模策略是不够的,因为在测试时表情类型(基本或复合)是未知的,且情绪状态是一个连续体,而不是离散的、孤立的类别。因此,同时识别基本情绪和复合情绪的方法,即基本和复合面部表情识别(BC-FER)(Jiang等人,2024),提供了一种更全面的方法。该框架更符合情感的心理学理论,并满足了对于鲁棒的现实世界情感识别系统的日益增长的需求。
在本研究中,我们提出了一个用于BC-FER任务的新型集成框架,该框架结合了标签分布学习(LDL)和动态集成选择(DES)。这种方法使用一组基于LDL的深度模型,每个模型都在基本或复合面部表情的不同子集上进行训练。这些模型旨在生成七种基本情绪的标签分布,确保输出的一致解释。本文的贡献总结如下:
•我们设计了一种统一的表示方法,将基本表情和复合表情编码为七种普遍认可的基本情绪的标签分布。这种表示方法捕捉了情感成分的微妙共存和强度变化。此外,它具有内在的灵活性和任务无关性,可以用于不同的面部表情识别任务,包括BFER、CFER和BC-FER。
•我们构建了一组专门的LDL深度神经网络,每个网络都在基本或复合表情的子集上进行训练,以捕捉特定任务的模式。为了创建这个多样化的集成,我们使用了两种不同的基于Transformer的架构,DaViT(Ding等人,2022)和TinyViT(Wu等人,2022)作为基础框架。
•我们提出了基于标签分布学习的多任务元学习器集成(LDL-MTMLE),这是一个由多任务元学习器指导的专门LDL学习器集成框架。该方法结合了基于LDL的堆叠和DES,在统一的1D-CNN架构中实现。在这种设置中,元学习器执行两个互补的功能:(1)通过堆叠机制将LDL基础学习器的输出聚合为精细的表情分布;(2)动态识别并为每个输入实例选择最合适的学习器。
本文的其余部分结构如下:第2节回顾相关工作,第3节详细介绍了所提出的统一框架。第4节和第5节分别展示了实验结果和消融研究。第6节将该方法与最先进的方法进行了比较。最后,第7节讨论了复杂性和局限性,第8节总结了本文。