
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多特征表征多层域自适应融合网络的跨库人脸表情识别研究
【字体: 大 中 小 】 时间:2025年05月15日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
本研究针对跨库人脸表情识别中特征提取单一及域分布差异大的问题,提出多特征表征多层域自适应融合网络(MRMDAFNet),整合残差网络特征(ResNet)、哈尔特征(Haar)和图卷积网络特征(GCN),通过子域对齐(LMMD)和全局适应(MMD)实现多层次域适应,在CK+、FER2013和RAF库上分别取得73.58%、56.59%和63.25%的准确率,为智能人机交互提供新方法。
论文解读
在人工智能与情感计算的交叉领域,人脸表情识别(FER)长期受困于"数据孤岛"效应——传统方法仅在单一数据库上训练和测试,而现实场景中不同数据库因拍摄环境、人物特征等差异导致特征分布迥异。更棘手的是,数据稀缺问题普遍存在,包括标注不一致、模态异构等挑战。现有方法如深度迁移学习网络(DANN)或对抗图框架(Chen et al., 2021)多依赖单一特征表征,难以全面捕捉表情图像中丰富的情绪线索,导致跨库识别性能骤降。
为解决这一瓶颈,中国国家自然科学基金(NSFC)资助团队提出多特征表征多层域自适应融合网络(MRMDAFNet)。该研究创新性地融合三类互补特征:残差网络(ResNet)提取的深度语义特征、哈尔小波(Haar)捕捉的局部对比特征,以及图卷积网络(GCN)建模的面部拓扑特征。通过设计多层次域适应模块,结合局部最大均值差异(LMMD)的子域对齐和最大均值差异(MMD)的全局适应,辅以多头注意力特征融合机制,显著提升模型在跨库场景下的泛化能力。
关键技术方法
研究采用三阶段技术路线:(1)多特征提取:分别用ResNet-18、Haar小波和GCN提取深度、局部及拓扑特征;(2)特征融合:通过多头注意力机制加权整合三类特征;(3)域适应:在CK+(源域)→FER2013/RAF(目标域)等跨库任务中,采用LMMD实现子域对齐,MMD完成全局分布匹配。实验涉及3个标准数据库(CK+、FER2013、RAF)的6种基础表情分类任务。
研究结果
多特征表征提取模块
ResNet特征聚焦眉眼区域的表情语义,Haar特征突出鼻唇沟区域的纹理变化,GCN特征则构建面部关键点间的动态关联。三类特征在愤怒、惊讶等强纹理表情中互补性显著。
特征融合模块
多头注意力机制赋予ResNet特征最高权重(0.42±0.03),表明深度特征在跨库任务中起主导作用,但Haar和GCN特征在光照变化场景下权重提升达18.7%。
多层域适应模块
LMMD使子域分布距离平均减少37.6%,MMD进一步降低全局差异21.4%。在CK+→RAF任务中,联合适应策略使准确率较单特征方法提升最高达14.2个百分点。
跨库实验
当FER2013作为目标域时,模型对"恐惧"表情识别率最低(48.3%),因其在训练集(CK+)中样本稀少;但对"高兴"表情识别率达68.9%,印证数据平衡的重要性。
结论与意义
该研究通过MRMDAFNet实现了三大突破:(1)首创多特征协同表征框架,较单特征方法AUC提升0.19;(2)设计的多层域适应模块使跨库识别准确率超越现有最佳方法(DMDA)2.8个百分点;(3)在实验室环境(CK+)到真实场景(RAF)的迁移中验证了技术鲁棒性。这些成果发表于《Engineering Applications of Artificial Intelligence》,为医疗机器人情感交互、精神疾病辅助诊断等场景提供了可解释的特征学习范式。作者团队特别指出,未来可结合时序特征(如光流)进一步优化动态表情识别,并探索联邦学习框架下的隐私保护型跨库协作。
生物通微信公众号
知名企业招聘