一种统一的框架，用于在野外环境中识别基本和复杂的面部表情，该框架结合了标签分布学习和动态集成选择技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：Unified Framework for In-the-Wild Recognition of Basic and Compound Facial Expressions Using Label Distribution Learning and Dynamic Ensemble Selection

【字体：大中小】 时间：2026年02月06日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　基本-复合面部表情识别框架通过标签分布学习建模混合情感，结合动态集成选择提升跨任务鲁棒性，在RAF-DB数据集上验证优于传统独立处理方法。

Afifa Khelifa|Haythem Ghazouani|Walid Barhoumi

突尼斯马赫迪亚马赫迪亚高等技术研究学院

摘要

以往关于面部表情识别（FER）的研究主要集中在分别分析基本表情（BFER）或复合表情（CFER）上。然而，这种二元方法忽略了现实世界中观察到的面部表情的细微差异，因为在现实场景中，基本情绪和复合情绪往往共存或相互重叠。仅依赖基本情绪或复合情绪的识别无法准确捕捉情绪行为的本质。因此，迫切需要开发一个统一的框架，将基本表情和复合表情的识别结合起来。基本-复合面部表情识别（BC-FER）任务仍然是一个未充分探索的领域，面临诸多挑战，包括复合表情的固有模糊性和复杂性、某些基本情绪之间的视觉相似性，以及纯情绪状态和混合情绪状态之间的潜在混淆。在本研究中，我们提出了一个用于BC-FER任务的统一框架。该框架将面部表情编码为七种基本情绪的标签分布，捕捉每种标签对表情的贡献程度，从而模拟情感状态的共现和渐变。为了有效利用互补的专业知识，该框架集成了专门用于识别基本表情或复合表情的学习器，并为每个输入实例动态选择最合适的学习器。这种标签分布学习（LDL）和动态集成选择（DES）的协同组合显著提高了该方法在现实世界中的鲁棒性和适应性。在RAF-DB真实数据集上进行的广泛实验表明，该框架取得了有竞争力的结果，并且可以灵活地应用于BFER和CFER任务。

引言

面部表情识别（FER）在情感计算中起着核心作用，它使机器能够解释非语言线索，从而支持人机交互、虚拟代理和行为分析等领域（Ghazouani，2023）。早期的FER系统主要依赖于手工制作的特征（Sidhom, Ghazouani, & Barhoumi，2022），如几何标志点和基于纹理的描述符（例如LBP、HOG），这些特征在多种条件下往往难以泛化。深度学习（Zhou, Guo, Jiang, Wang, & Jing，2025b；Zhou, Pei, Si, Qin, & Heng，2025c；Xue, Wang, & Guo，2021；Liu等人，2024b；Liu等人，2024a）的出现彻底改变了这一领域，使模型能够直接从原始面部图像中学习层次化的数据驱动表示。这一范式转变显著提高了性能，尤其是在遮挡、姿势变化和光照变化等具有挑战性的条件下（Liu, Wang, Yang, & Wang，2021），使深度学习成为当代FER研究的基石（Boughanem, Ghazouani, & Barhoumi，2023）。传统上，FER模型专注于识别基本情绪（快乐、悲伤、愤怒、恐惧、惊讶、厌恶和中性），这些情绪是根据Ekman的普遍情绪理论（Ekman & Friesen，1971）定义的。这些情绪通常使用面部动作编码系统（FACS）中的动作单元（AUs）进行标注。然而，这种简化的表示方式无法反映现实生活中表情的丰富性和模糊性。在自然无约束的情境中，人们经常表现出两种或更多基本情绪的混合表情。例如，当面对令人不安或威胁的情况时，一个人可能会表现出厌恶和恐惧的混合情绪；或者在收到意外的好消息时，可能会表现出喜悦和惊讶的混合情绪。这些复合表情反映了微妙的情感细微差别，提供了对人类情感行为复杂性的更准确表示。因此，FER的范围已经扩展到包括BFER和CFER（Du, Tao, & Martinez，2014a），将基本情绪和混合情绪的识别视为独立的任务。

将基本表情和复合表情的识别视为独立问题忽略了现实世界中观察到的面部情感的连续性和相互关联性。最近的研究（Jiang, Wang, Xiao, Hu, & Deng，2024）表明，仅针对某一任务训练的模型在另一任务上的泛化能力较差。例如，仅用于识别基本情绪的FER模型在评估复合表情时的性能会大幅下降（从85.6%降至0.75%）。这种限制源于复合表情并非基本情绪的简单叠加，而是反映了非线性和微妙的面部线索的叠加。相反，仅针对复合表情优化的模型编码了混合的情感语义，导致它们无法可靠地恢复单一的主导基本情绪；在这种情况下，性能也出现了显著下降（从51.1%降至6.4%）。这些观察结果表明，对于实际的FER任务来说，单独的建模策略是不够的，因为在测试时表情类型（基本或复合）是未知的，且情绪状态是一个连续体，而不是离散的、孤立的类别。因此，同时识别基本情绪和复合情绪的方法，即基本和复合面部表情识别（BC-FER）（Jiang等人，2024），提供了一种更全面的方法。该框架更符合情感的心理学理论，并满足了对于鲁棒的现实世界情感识别系统的日益增长的需求。

在本研究中，我们提出了一个用于BC-FER任务的新型集成框架，该框架结合了标签分布学习（LDL）和动态集成选择（DES）。这种方法使用一组基于LDL的深度模型，每个模型都在基本或复合面部表情的不同子集上进行训练。这些模型旨在生成七种基本情绪的标签分布，确保输出的一致解释。本文的贡献总结如下：

•

我们设计了一种统一的表示方法，将基本表情和复合表情编码为七种普遍认可的基本情绪的标签分布。这种表示方法捕捉了情感成分的微妙共存和强度变化。此外，它具有内在的灵活性和任务无关性，可以用于不同的面部表情识别任务，包括BFER、CFER和BC-FER。

•

我们构建了一组专门的LDL深度神经网络，每个网络都在基本或复合表情的子集上进行训练，以捕捉特定任务的模式。为了创建这个多样化的集成，我们使用了两种不同的基于Transformer的架构，DaViT（Ding等人，2022）和TinyViT（Wu等人，2022）作为基础框架。

•

我们提出了基于标签分布学习的多任务元学习器集成（LDL-MTMLE），这是一个由多任务元学习器指导的专门LDL学习器集成框架。该方法结合了基于LDL的堆叠和DES，在统一的1D-CNN架构中实现。在这种设置中，元学习器执行两个互补的功能：（1）通过堆叠机制将LDL基础学习器的输出聚合为精细的表情分布；（2）动态识别并为每个输入实例选择最合适的学习器。

本文的其余部分结构如下：第2节回顾相关工作，第3节详细介绍了所提出的统一框架。第4节和第5节分别展示了实验结果和消融研究。第6节将该方法与最先进的方法进行了比较。最后，第7节讨论了复杂性和局限性，第8节总结了本文。

提出的方法

本节详细介绍了基本-复合FER的统一框架。首先介绍了采用的LDL表示方法，用于捕捉表情中基本情绪的共存和强度。这种表示方法是LDL-MTMLE框架的基础，该框架将专门的基础学习器与多任务元学习器结合，以实现动态集成选择和基于堆叠的融合。

实验与结果

在本节中，我们首先概述了数据集和实验设置，然后详细介绍了基础学习器和提出的LDL-MTMLE集成在BC-FER任务上的性能。接下来，提供了跨数据集评估和视觉分析，以进一步评估泛化和可解释性。

消融研究

为了全面评估所提出的框架，我们进行了五部分的综合消融研究。首先，我们比较了三种监督学习范式：SLL、MLL和LDL，在训练单个BC-FER模型时的效果。其次，我们评估了元学习器采用的多任务学习策略的有效性。第三，我们研究了仅使用两个基础学习器的简化LDL-MTMLE变体的性能-效率权衡。

与最先进方法的比较

由于同时识别基本表情和复合表情的固有复杂性，BC-FER任务仍然是一个未充分探索的领域。文献主要集中在BFER上，涉及BC-FER的研究相对较少。

如表10所示，只有少数研究探讨了这个问题。Slimani等人（Slimani等人，2022）使用CNN深度特征结合SVM评估了他们的方法，取得了

讨论

本节讨论了我们工作的更广泛影响和局限性。我们首先分析了LDL-MTMLE框架的计算复杂性和实际可行性。然后，我们讨论了与数据集不平衡和领域泛化相关的当前局限性，并概述了有前景的未来研究方向。

结论

在这项工作中，我们解决了BC-FER这一未充分探索的问题，旨在弥合传统BFER和CFER任务之间的差距。与以往独立处理这两个任务的研究不同，我们的方法引入了一种基于LDL的统一公式，能够在单一连贯的框架中同时建模基本情绪和复合情绪。通过将每个面部表情表示为七种普遍情绪的分布，所提出的方法有效地捕捉了

作者声明

所有作者对这项工作做出了平等的贡献。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究