
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于改进掩码自编码器的自监督面部表情修复与识别方法:提升遮挡环境下分类准确性与稳定性
【字体: 大 中 小 】 时间:2025年09月12日 来源:Neurocomputing 6.5
编辑推荐:
本文提出一种结合自监督学习与生成对抗网络(GAN)的创新方法,针对遮挡条件下的人脸表情识别(FER)问题展开研究。通过改进掩码自编码器(MAE)结构降低计算成本,设计动态权重分配生成对抗网络(DWA-GAN)实现精准遮挡修复,并采用旋转擦除注意力一致性(REAC)机制缓解标签模糊性问题,在RAF-DB数据集上达到最优性能。
Highlights
面部表情识别(FER)
FER是计算机视觉与人工智能领域的重要研究方向,其过程涵盖三个核心步骤:面部特征提取、特征表示与表情分类。近年来,基于深度学习的方法——尤其是卷积神经网络(CNN)——展现出卓越性能。然而,从头训练CNN模型需大量人脸图像数据。相比之下,迁移学习能在有限数据条件下保持模型的良好泛化能力。
MAE-FER方法概述
当人脸被意外物体遮挡时,网络往往难以提取有效特征,导致识别准确率下降。为解决该问题,掩码自编码器(MAE)凭借其非对称编码器-解码器架构成功实现对掩码图像的建模。尽管MAE在下游任务中表现优异,仍面临两大挑战:首先,传统视觉Transformer(ViT)编码器在微调阶段需消耗大量计算资源;其次,预训练模型难以直接适应复杂多变的真实场景遮挡问题。
DWA-GAN方法概述
仅依赖MAE-FER处理真实场景中的遮挡人脸重建任务存在一定局限性。研究表明,处理遮挡感知的神经网络通常需基于全标注人脸图像进行训练,这一过程既耗时又成本高昂。本研究提出一种称为动态权重分配生成对抗网络(DWA-GAN)的新方法,通过融合遮挡检测、动态权重分配与语义一致性约束,实现高效精准的遮挡修复。
数据集
在FER任务中,用于训练的面部表情数据质量至关重要。影响模型性能的因素包括数据量、场景多样性、类别平衡性、标注准确性及光照条件。本研究使用的数据集如下:
(1)FED-RO数据集由Li等人提出,所有样本均为遮挡面部表情数据,包含惊喜、恐惧、厌恶、快乐、悲伤、愤怒和中性七类表情。
Conclusion
本研究旨在解决FER中图像遮挡的挑战,并提出了一种创新解决方案。首先介绍了方法的设计与实现,包括所用数据集及模型架构;随后在AffectNet和RAF-DB数据集上评估方法性能,并与前沿方法进行对比。结果表明,本方法在AffectNet和RAF-DB上分别达到67.3%和85.3%的准确率,显著优于现有技术。
生物通微信公众号
知名企业招聘