面部情感识别(FER)已成为情感计算中的关键技术,使机器能够通过面部表情解读人类情感。虽然在分类基本情感(如快乐、悲伤和愤怒)方面取得了显著进展,但现有系统大多在分类框架内运行,将情感视为离散且互斥的状态(Abonamah, Tariq, & Shilbayeh (2021); Ko (2018))。
FER系统通常遵循两种基本范式之一:分类或维度情感识别。分类方法是大多数现有系统的基础,将情感分为离散类别,如六种基本情感(快乐、悲伤、愤怒、恐惧、惊讶、厌恶)以及中性情感(Alkurdi, Rasouli, Talamonti, Nasir, & Alsaid (2024); Somarathna & Mohammadi (2024))。这种方法简单且易于解释,但未能捕捉到情感体验的连续性。相比之下,维度方法将情感表示在连续空间中,通常使用诸如价值(愉悦-不悦)、唤醒(激活-停用)和支配(控制-服从)等维度(Geetha, Mala, Priyanka, & Uma (2024))。这一限制提出了一个关键的研究挑战:我们能否开发出不仅能识别情感,还能高精度量化的FER系统?由于表情的模糊性、个体间差异以及缺乏标记数据,现有方法在这方面的挑战很大,这阻碍了真正细致且具有上下文意识的情感识别系统的开发。
我们提出的CNN-DET模型主要针对分类情感识别,符合已建立的基准和实际应用需求。这种定位使得它可以直接与最先进的方法进行比较,并适用于需要离散情感分类的场景。然而,该模型的架构通过其集成机制和基于置信度的预测包含了捕捉连续情感特征的元素,为未来扩展到维度情感分析奠定了基础。
估计情感的能力在多个领域具有变革潜力。在心理健康监测中,检测到悲伤或焦虑的微妙增加可以及时干预有抑郁风险的个人(Burleson & Picard (2007); Mano et al. (2016))。在人机交互中,自适应辅导系统可以根据学生的沮丧程度调整响应(Pervez et al. (2024)),而智能虚拟助手可以通过更精确地感知用户情绪来改进交互。汽车安全系统也可以通过识别驾驶员的压力或困倦程度在达到临界阈值之前采取行动(Bethge et al. (2021))。边缘计算和实时系统的最新进展进一步扩展了这些应用,包括移动健康监测和车内安全系统(Zhang, El Ali, Wang, Hanjalic, & Cesar (2023))。尽管这些应用很有吸引力,但大多数FER模型仍然局限于静态分类任务,无法捕捉现实世界情感表达的动态和渐进性质。解决这一限制不仅是一项学术挑战,也是在实时、高风险环境中部署情感计算系统的实际需求。
情感估计超越了二元分类范式,提供了对人类情感更丰富、更细致的理解。传统的FER系统仅将表情标记为“愤怒”或“快乐”,忽略了情感强度的关键变化——这些变化往往包含可操作的洞察力。例如,在心理治疗中,区分轻微痛苦和严重痛苦可以为临床决策提供信息(Ananda Kanagaraj et al. (2016))。同样,在安全和监控中,情感唤醒的微妙变化可能预示着欺骗或敌对意图(Tubbs & Rahman (2015))。即使在零售和市场营销中,量化客户情绪也有助于制定更细致的参与策略(Pantano, Dennis, & Alamanos (2022))。最近在连续情感识别方面的研究强调了强度感知模型对这些实际应用的重要性。挑战在于开发能够可靠区分这些细微差异的模型,特别是考虑到现实世界面部表情中的固有噪声和带有强度级别标签的数据集的稀缺性。
尽管取得了显著进展,当前的FER系统在情感估计方面仍面临几个未解决的挑战。首先,大多数公开可用的数据集(例如FER-2013)(Kaggle (2024))仅包含分类标签,缺乏连续或基于强度的注释,限制了能够学习渐进情感状态的监督模型的发展。其次,为离散分类优化的深度学习架构往往难以泛化到微妙、复合或模糊的面部表情,尤其是在现实世界不受限制的条件下。第三,现有模型很少考虑面部表达风格的个体间差异,导致在不同人群群体中的预测存在偏差或不一致性。最后,尽管集成学习方法在提高鲁棒性方面显示出潜力,但其在FER中的应用,特别是在强度感知或不确定性敏感的预测方面,仍需进一步探索。
这些差距突显了需要一个混合框架的必要性,该框架结合了深度学习的表示能力和决策方法的多样性,以提高在不同情感情境下的精确度和泛化能力(Khan et al. (2024); Li & Deng (2020); Samadiani et al. (2019))。
本文介绍了CNN-DET,这是一种新颖的混合架构,它弥合了分类情感识别和连续估计之间的差距。CNN-DET的总体架构如图2所示,它结合了用于特征提取的CNN主干网络和用于分类的深度额外树集成(第4节有详细说明)。在其核心,CNN-DET利用了卷积神经网络(CNN)的空间特征提取能力,并通过深度额外树(DET)集成机制进行了增强,实现了鲁棒且具有不确定性感知的情感预测。与以往的工作不同,我们的模型通过分层集成明确解决了表情的模糊性和个体间差异问题,其中多个基础模型根据置信度分数贡献出共识预测。这种设计不仅提高了分类准确性,还提高了可解释性,允许进行更细致的错误分析。
我们在三个基准数据集FER-2013、AffectNet和RAF-DB上验证了CNN-DET(第5节),证明了其在分类分类和强度敏感情感估计任务中的优越性能。实验结果(第7节)显示,集成策略显著减少了视觉上相似情感(例如恐惧和惊讶)之间的误分类,同时保持了对低强度表达的敏感性。
为了确保全面评估,我们采用了多数据集验证策略,这些数据集在数据规模、标记方案和获取条件上有所不同。AffectNet提供了带有分类和维度标签的大规模真实世界图像(Fard, Hosseini, Sweeny, & Mahoor (2024)),RAF-DB包含了带有细粒度注释的真实世界面部表情(Yousafzai et al. (2025)),而FER-2013作为标准化基线。这种组合确保了在不同场景下的强大泛化和实际鲁棒性。
通过将深度特征学习与基于集成的细化相结合,CNN-DET推动了情感感知生物识别系统的进步,为更加适应性强、可靠且具有上下文意识的人机交互铺平了道路。
本文的其余部分组织如下:(第2节)回顾了FER、深度集成和估计的相关工作。第3节详细介绍了数据预处理和核心方法。第4节介绍了提出的CNN-DET架构。第5节描述了数据集,第6节介绍了实验设置和评估指标。第7节展示了结果并进行了讨论。第8节讨论了局限性和伦理考虑,第9节总结了未来的研究方向。