AUNet：一种基于动作单元的局部-全局交互式注意力网络，结合情感感知的对比学习技术用于面部表情识别

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Knowledge-Based Systems》：AUNet: An Action Unit–Driven Local–Global Interactive Attention Network with Emotion-Aware Contrastive Learning for Facial Expression Recognition

【字体：大中小】 时间：2026年02月19日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　面部表情识别（FER）在真实场景中面临细微类别差异、局部特征耦合及情感相似度挑战。本文提出AUNet双分支网络，通过AU语义指导的分辨率自适应四区域划分提取眼、眉、鼻、口局部特征，结合动态局部-全局交互注意力（LGIA）模块实现多尺度特征融合，并设计情感对比损失函数优化类内紧凑性与类间可分性。实验表明AUNet在AffectNet-7、FERPlus等四个数据集上显著优于基线方法。

郭代鹏|徐飞

西安工业大学机电工程学院，中国西安

摘要

在现实世界场景中，面部表情识别（FER）面临诸多挑战，例如类别间的细微差异、局部特征的耦合以及情绪的相似性。为克服现有方法在全局上下文建模和细粒度区域特征协作方面的局限性，本文提出了一种基于动作单元（AU）生物语义的双分支网络AUNet。首先，我们设计了一种分辨率自适应的、固定比例的四区域划分策略，将面部特征划分为四个语义区域——眉毛、眼睛、鼻子和嘴巴，并通过独立的局部分支对它们进行建模。接下来，我们引入了局部-全局交互注意力（LGIA）模块，该模块通过动态门控机制将多尺度区域特征与全局通道响应相结合，从而增强层间特征交互。最后，我们构建了一个情感感知的对比损失函数，该函数利用预定义的情绪相似性矩阵自适应地优化类别间决策边界，提升类别内的紧凑性和类别间的区分度。实验结果表明，AUNet在四个数据集AffectNet-7、FERPlus、RAF-DB和FED-RO上的表现显著优于现有方法。消融研究证实了区域划分策略和注意力模块的协同效应，而可视化分析进一步凸显了AU语义引导与模型特征激活之间的强相关性。

引言

面部表情识别（FER）是计算机视觉中的核心任务，旨在通过面部表情解读人类情绪[1]。随着深度学习的进步，FER在医疗保健[2]、教育[3]和智能驾驶[4]等多个领域展现出巨大潜力。为了促进FER在现实环境中的应用，已经开发了多个大规模数据集，如AffectNet[5]、RAF-DB[6]、FERPlus[7]和FED-RO[8]，这标志着FER研究从受控实验室环境向复杂自然场景的转变。然而，尽管FER系统在理想条件下表现良好（图1(a)），但在涉及部分遮挡（图1(b)）和非正面面部姿态（图1(c)）的自然环境中，其准确率会急剧下降，这些因素对计算机视觉模型提出了更高要求。

卷积神经网络（CNN）作为主要的图像特征提取工具，已被广泛应用于FER任务。然而，在面对噪声、光照变化和样本不平衡等自然环境挑战时，CNN往往难以聚焦于关键面部区域[9]。相比之下，人类视觉系统结合了局部和全局信息来准确捕捉面部表情细节[10]。尽管一些研究尝试分别提取局部和全局特征，并探索了多种局部区域划分策略[12],[13]，但最近的研究通过双流交叉融合设计[66]、渐进式层次特征融合[67]和层次化全局-局部交叉融合架构[68]进一步推进了局部-全局特征融合。然而，大多数现有方法仍缺乏明确的语义引导，这限制了在无约束场景下的细粒度区域建模。

为了使CNN能够像人类视觉系统一样关注关键面部区域，提出了多种注意力机制，如SENet[14]、CBAM[15]和坐标注意力[16]。这些方法增强了关键区域的特征响应，在一般的视觉识别任务中表现良好。然而，在FER中，细粒度特征提取仍然不足。此外，高类别间相似性和类别内变异性也给FER带来了挑战。例如，“悲伤”和“厌恶”表情通常表现出相似的面部肌肉运动，如眉毛皱缩和嘴角下垂，而文化差异进一步增加了识别的复杂性。因此，在类别间区分度和类别内紧凑性之间取得平衡成为FER的关键挑战。尽管一些研究通过判别性特征学习提高了模型性能[17],[18],[19]，但这些方法主要依赖注意力机制，仍然难以有效学习同时捕捉类别内相似性和类别间差异性的深度特征表示，导致性能瓶颈持续存在。

为了解决这些问题，本文提出了AUNet，这是一种基于动作单元（AU）的局部-全局层次交互网络，旨在提升FER在自然环境中的鲁棒性。AUNet包含两个主要分支：（1）全局特征提取分支，其中包含动态的局部-全局交互注意力（LGIA）模块，以加强全局特征与局部特征之间的交互，确保在全局特征提取过程中保留关键信息。受Ekman等人提出的面部动作编码系统（FACS）[20]的启发，进一步引入了情感感知的对比损失函数，以扩大类别间距离同时最小化类别内距离。（2）局部特征分支，基于AU强度解释[21]，将面部划分为四个关键区域——眼睛、嘴巴、眉毛和鼻子，并从每个区域提取特征，即使在遮挡或非正面姿态下也能保持对信息区域的关注，从而增强局部特征的贡献。

本文的主要贡献如下：

（1）提出了一种分辨率自适应的四区域面部划分策略，有效缓解了由情绪相似性引起的类别间混淆。

（2）引入了LGIA模块，动态平衡局部细节和全局语义，增强了遮挡和非正面姿态条件下的特征互补性。

（3）开发了情感感知的对比损失（EACLoss）函数，以提高类别间区分度和类别内紧凑性。

（4）AUNet在多个基准数据集上实现了最先进的性能，包括AffectNet-7、RAF-DB、FERPlus和FED-RO。消融和可视化研究进一步验证了每个提出组件的协同效果。

本文的其余部分组织如下：第2节回顾相关工作，第3节介绍AUNet的架构，第4节展示实验结果和分析，第5节总结本文。

节选内容

野外的面部表情识别

尽管深度学习显著提高了FER在受控环境中的性能，但部分遮挡、非正面姿态和类别间的细微差异等挑战仍阻碍了模型在现实世界场景中的鲁棒性。现有研究主要从两个角度解决了这些问题：标签噪声鲁棒性和层次特征学习。

在处理标签噪声方面，She等人[22]通过建模潜在标签来减轻标签歧义

概述

所提出的基于AU的层次注意力网络（AUNet）旨在通过整合全局和局部特征提取机制来提升FER性能。如图2所示，AUNet的架构包含两个主要分支：全局特征分支和局部特征分支。我们采用ResNet18[37]作为主干网络，其中初始特征预提取通过Conv1到Conv3层完成，然后将中间特征图划分为两个分支。

实验

本节展示了一系列实验，以验证所提出方法的有效性。第4.1节介绍了四个FER数据集和本研究中使用的评估指标。第4.2节描述了实现细节。第4.3节报告了量化每个关键组件贡献的消融研究。第4.4节将所提出的方法与最先进的方法进行了比较。最后，第4.5节提供了可视化分析，以提高

结论

在这项研究中，我们提出了AUNet，这是一个基于AU的框架，具备全局-局部交互能力，为自然环境中的FER提供了有效的解决方案。该模型采用双分支架构，同时提取全局上下文特征和局部细粒度特征。在局部分支中，根据AU信息将面部图像划分为四个关键区域，并对每个区域进行独立特征提取。为了进一步增强特征整合，我们引入了

作者贡献声明

郭代鹏：概念化、资源、方法论、撰写-原始草案。徐飞：项目管理、撰写-审稿与编辑、调查、资金获取、概念化。

数据可用性

数据将应请求提供。

CRediT作者贡献声明

郭代鹏：撰写 – 原始草案、资源、方法论、概念化。徐飞：撰写 – 审稿与编辑、项目管理、调查、资金获取、概念化。

利益冲突声明
作者声明他们没有已知的可能影响本文工作的竞争性财务利益或个人关系。

致谢
本工作得到了国家重点实验室（编号SKLK22-11）、陕西省重点研发项目（编号K20220022）和陕西省教育厅地方服务专项项目（编号23JC039）的支持。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号

摘要

引言