综述：CNN-DET：一种用于情感识别的混合深度学习架构

《Expert Systems with Applications》：CNN-DET: A Hybrid Deep Learning Architecture for Emotion Recognition

【字体：大中小】 时间：2026年02月07日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　面部情感识别混合模型CNN-DET通过CNN特征提取与Deep Extra Trees集成分类，在FER-2013、AffectNet、RAF-DB数据集上分别达到98.16%、91.2%、89.7%准确率，降低23.4%相似情绪误分类率，提升15.8%光照鲁棒性，并实现跨年龄族群的低方差（<3.2%）性能一致性。

Berrouachedi Abdelkader | Jaziri Rakia | Bernard Gilles

巴黎第八大学，圣丹尼斯，93200，巴黎，法国

摘要

情感识别在各种生物识别应用中扮演着关键角色，包括人机交互、医疗保健和安全领域。本文提出了一种新颖的混合方法CNN-DET，该方法将卷积神经网络（CNN）与深度额外树（DETs）相结合，以实现鲁棒的面部情感识别。所提出的方法通过预训练的CNN模型进行分层特征提取，并结合基于集成的DET进行分类，从而准确检测和分类面部表情中的情感。在基准数据集上的全面评估证明了我们方法的优越性能。在FER-2013数据集上，CNN-DET在10折交叉验证中的准确率为98.16%，在标准测试集上的准确率为85.32%，精确度为85.7%，召回率为85.3%，F1分数为85.4%。该模型在多种条件下都能保持强劲的性能，在AffectNet上的准确率为91.2%，在RAF-DB上的准确率为89.7%，证实了其泛化能力。广泛的实验表明，与传统CNN方法相比，我们的方法将视觉上相似情感之间的误分类减少了23.4%，并在不同光照条件下提高了15.8%的鲁棒性。所提出的方法不仅能够准确识别情感，而且在不同人群群体中也表现出一致的性能，年龄和种族子组的性能差异小于3.2%。这些发现突显了深度学习技术在生物识别情感识别中的巨大潜力，为开发更智能和交互式的系统提供了宝贵的见解。未来的研究将集中在多模态数据融合和时间建模上，以进一步提高识别准确性和实时性能。

引言

面部情感识别（FER）已成为情感计算中的关键技术，使机器能够通过面部表情解读人类情感。虽然在分类基本情感（如快乐、悲伤和愤怒）方面取得了显著进展，但现有系统大多在分类框架内运行，将情感视为离散且互斥的状态（Abonamah, Tariq, & Shilbayeh (2021); Ko (2018)）。

FER系统通常遵循两种基本范式之一：分类或维度情感识别。分类方法是大多数现有系统的基础，将情感分为离散类别，如六种基本情感（快乐、悲伤、愤怒、恐惧、惊讶、厌恶）以及中性情感（Alkurdi, Rasouli, Talamonti, Nasir, & Alsaid (2024); Somarathna & Mohammadi (2024)）。这种方法简单且易于解释，但未能捕捉到情感体验的连续性。相比之下，维度方法将情感表示在连续空间中，通常使用诸如价值（愉悦-不悦）、唤醒（激活-停用）和支配（控制-服从）等维度（Geetha, Mala, Priyanka, & Uma (2024)）。这一限制提出了一个关键的研究挑战：我们能否开发出不仅能识别情感，还能高精度量化的FER系统？由于表情的模糊性、个体间差异以及缺乏标记数据，现有方法在这方面的挑战很大，这阻碍了真正细致且具有上下文意识的情感识别系统的开发。

我们提出的CNN-DET模型主要针对分类情感识别，符合已建立的基准和实际应用需求。这种定位使得它可以直接与最先进的方法进行比较，并适用于需要离散情感分类的场景。然而，该模型的架构通过其集成机制和基于置信度的预测包含了捕捉连续情感特征的元素，为未来扩展到维度情感分析奠定了基础。

估计情感的能力在多个领域具有变革潜力。在心理健康监测中，检测到悲伤或焦虑的微妙增加可以及时干预有抑郁风险的个人（Burleson & Picard (2007); Mano et al. (2016)）。在人机交互中，自适应辅导系统可以根据学生的沮丧程度调整响应（Pervez et al. (2024)），而智能虚拟助手可以通过更精确地感知用户情绪来改进交互。汽车安全系统也可以通过识别驾驶员的压力或困倦程度在达到临界阈值之前采取行动（Bethge et al. (2021)）。边缘计算和实时系统的最新进展进一步扩展了这些应用，包括移动健康监测和车内安全系统（Zhang, El Ali, Wang, Hanjalic, & Cesar (2023)）。尽管这些应用很有吸引力，但大多数FER模型仍然局限于静态分类任务，无法捕捉现实世界情感表达的动态和渐进性质。解决这一限制不仅是一项学术挑战，也是在实时、高风险环境中部署情感计算系统的实际需求。

情感估计超越了二元分类范式，提供了对人类情感更丰富、更细致的理解。传统的FER系统仅将表情标记为“愤怒”或“快乐”，忽略了情感强度的关键变化——这些变化往往包含可操作的洞察力。例如，在心理治疗中，区分轻微痛苦和严重痛苦可以为临床决策提供信息（Ananda Kanagaraj et al. (2016)）。同样，在安全和监控中，情感唤醒的微妙变化可能预示着欺骗或敌对意图（Tubbs & Rahman (2015)）。即使在零售和市场营销中，量化客户情绪也有助于制定更细致的参与策略（Pantano, Dennis, & Alamanos (2022)）。最近在连续情感识别方面的研究强调了强度感知模型对这些实际应用的重要性。挑战在于开发能够可靠区分这些细微差异的模型，特别是考虑到现实世界面部表情中的固有噪声和带有强度级别标签的数据集的稀缺性。

尽管取得了显著进展，当前的FER系统在情感估计方面仍面临几个未解决的挑战。首先，大多数公开可用的数据集（例如FER-2013）（Kaggle (2024)）仅包含分类标签，缺乏连续或基于强度的注释，限制了能够学习渐进情感状态的监督模型的发展。其次，为离散分类优化的深度学习架构往往难以泛化到微妙、复合或模糊的面部表情，尤其是在现实世界不受限制的条件下。第三，现有模型很少考虑面部表达风格的个体间差异，导致在不同人群群体中的预测存在偏差或不一致性。最后，尽管集成学习方法在提高鲁棒性方面显示出潜力，但其在FER中的应用，特别是在强度感知或不确定性敏感的预测方面，仍需进一步探索。

这些差距突显了需要一个混合框架的必要性，该框架结合了深度学习的表示能力和决策方法的多样性，以提高在不同情感情境下的精确度和泛化能力（Khan et al. (2024); Li & Deng (2020); Samadiani et al. (2019)）。

本文介绍了CNN-DET，这是一种新颖的混合架构，它弥合了分类情感识别和连续估计之间的差距。CNN-DET的总体架构如图2所示，它结合了用于特征提取的CNN主干网络和用于分类的深度额外树集成（第4节有详细说明）。在其核心，CNN-DET利用了卷积神经网络（CNN）的空间特征提取能力，并通过深度额外树（DET）集成机制进行了增强，实现了鲁棒且具有不确定性感知的情感预测。与以往的工作不同，我们的模型通过分层集成明确解决了表情的模糊性和个体间差异问题，其中多个基础模型根据置信度分数贡献出共识预测。这种设计不仅提高了分类准确性，还提高了可解释性，允许进行更细致的错误分析。

我们在三个基准数据集FER-2013、AffectNet和RAF-DB上验证了CNN-DET（第5节），证明了其在分类分类和强度敏感情感估计任务中的优越性能。实验结果（第7节）显示，集成策略显著减少了视觉上相似情感（例如恐惧和惊讶）之间的误分类，同时保持了对低强度表达的敏感性。

为了确保全面评估，我们采用了多数据集验证策略，这些数据集在数据规模、标记方案和获取条件上有所不同。AffectNet提供了带有分类和维度标签的大规模真实世界图像（Fard, Hosseini, Sweeny, & Mahoor (2024)），RAF-DB包含了带有细粒度注释的真实世界面部表情（Yousafzai et al. (2025)），而FER-2013作为标准化基线。这种组合确保了在不同场景下的强大泛化和实际鲁棒性。

通过将深度特征学习与基于集成的细化相结合，CNN-DET推动了情感感知生物识别系统的进步，为更加适应性强、可靠且具有上下文意识的人机交互铺平了道路。

本文的其余部分组织如下：（第2节）回顾了FER、深度集成和估计的相关工作。第3节详细介绍了数据预处理和核心方法。第4节介绍了提出的CNN-DET架构。第5节描述了数据集，第6节介绍了实验设置和评估指标。第7节展示了结果并进行了讨论。第8节讨论了局限性和伦理考虑，第9节总结了未来的研究方向。

部分摘录

背景和相关工作

本节全面概述了面部情感识别（FER）的发展历程，从传统的基于手工特征的技术到现代的深度学习和混合架构。它批判性地评估了每种方法的优点和局限性，总结了当前的研究前沿，并强调了推动提出的CNN-DET框架发展的未解决挑战。

数据预处理

步骤包括调整大小、归一化、增强和平衡类别不平衡。类别加权损失确保了学习的平衡（见表8，表12了解不平衡的影响）。数据集分割（训练、验证、测试）遵循图3中可视化的k折协议。

•

图像调整大小：FER-2013数据集中的原始图像大小可能不同。为了确保一致性并降低计算复杂性，图像被调整到统一的分辨率。一个常见的选择是调整图像的大小

提出的CNN-DET框架

本节介绍了提出的卷积神经网络与深度额外树（CNN-DET），如图2所示，它统一了基于CNN的特征提取和基于DET的决策建模。算法1详细说明了DET的训练步骤，而表6总结了核心创新。

数据集概述

为了确保全面和公平的评估，我们使用了三个公开可用的面部情感识别（FER）数据集：FER-2013、AffectNet和RAF-DB。这些数据集为评估CNN-DET的鲁棒性和泛化能力提供了严格的测试平台。如第7节所述，每个数据集都带来了不同的挑战：FER-2013存在显著的类别不平衡（见图4），而AffectNet和RAF-DB包含大量的“真实世界”变化。

设置描述

实验设置需要强大的硬件配置来有效训练和评估深度学习模型。强烈建议使用高性能GPU（如NVIDIA GeForce RTX 30系列）来加速计算密集型任务，特别是在模型训练期间。这种硬件设置能够更快地处理大型数据集和复杂的神经网络架构。对于软件，深度学习模型是使用成熟的框架开发的

结果和讨论

本节展示了提出的CNN-DET模型的实验结果及其相应分析。我们评估了分类性能，分析了泛化能力，与最先进的方法进行了比较，并评估了所提出系统的计算效率和部署可行性。

技术限制

尽管结果很有前景，但该模型仍有一些局限性。首先，额外树没有利用时间信息，这在基于视频的情感识别中可能至关重要。其次，尽管语义特征可以提高性能，但其提取流程可能会增加复杂性。未来的研究可以整合注意力机制或基于Transformer的模块来动态加权面部的关键区域。此外，适应多模态融合（例如，结合面部和声音）的架构也是必要的

结论和未来工作

CNN-DET架构的开发旨在通过结合卷积神经网络和集成学习的优势来解决情感识别中的关键挑战。CNN提供了强大的空间特征提取能力，而决策嵌入树的集成增强了鲁棒性和泛化能力。这种混合方法通过有效平衡模型的表达能力和计算效率，在情感估计方面实现了最先进的性能。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

摘要

引言