LEAF框架:半监督面部表情识别中表征与伪标签的协同优化

【字体: 时间:2025年07月27日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  推荐:针对标签稀缺下面部表情识别(FER)的难题,研究人员提出层次化解耦融合(LEAF)框架,通过语义/实例/类别三级EAF策略协同优化表达相关表征与伪标签生成。实验表明该方法在RAFDB等数据集上超越现有SOTA,其模块化设计可无缝集成至现有半监督框架。

  

面部表情作为人类情感传递的核心载体,在人工智能生成内容爆发的时代背景下,其自动识别技术(Facial Expression Recognition, FER)正成为人机交互和数字人构建的关键瓶颈。然而现有方法面临双重困境:一方面,标注数据的稀缺性与标注者主观差异导致监督学习性能受限;另一方面,当前半监督方法过度聚焦伪标签生成而忽视表达相关表征的优化,难以捕捉愤怒与厌恶等细微表情差异。这种"只见硬币一面"的研究现状,使得FER系统在真实场景中的泛化能力大打折扣。

针对这一挑战,研究人员创新性地提出层次化解耦融合(LEAF)框架。该工作首次系统性地协调了表征学习与伪标签生成这两个半监督FER的"硬币两面",通过三级表达感知聚合策略实现突破:在语义层面,借鉴混合专家(MoE)机制解耦表情无关/相关特征;在实例层面采用可学习门控权重自适应融合特征;在类别层面设计模糊一致性损失约束正负伪标签分布。这种分层处理使模型能像"剥洋葱"般逐层聚焦表情本质特征。

关键技术包括:(1)构建三级EAF策略实现特征与预测解耦;(2)设计基于MoE的专家网络处理专业化表征;(3)开发模糊伪标签分配机制增强一致性;(4)在RAFDB、FERPlus和AffectNet等多尺度数据集验证。特别值得注意的是,研究者创造性地将表情识别建模为"正负部分协同优化"问题,通过控制正负类别间距的边际损失,使模型对细微表情变化更加敏感。

语义级EAF策略 通过多头注意力机制将输入特征分解为K个子空间,每个专家网络专注学习特定表情维度特征。实验显示该策略使CK+数据集上惊讶表情的识别准确率提升12.7%,证明特征解耦能有效捕捉眉毛上扬等细微肌肉运动。

实例级融合机制 创新性地引入动态门控权重,定量分析表明表情相关特征的权重分配比基线方法高38.2%,验证了模型自动聚焦关键特征的能力。在跨数据库测试中,该模块使Oulu-CASIA到MMI的迁移学习性能提升9.3%。

类别级模糊标签 采用Top-k候选伪标签策略,相比FixMatch等确定性方法,在标记数据仅占10%的极端条件下仍保持82.4%的稳定准确率。消融实验证实,边际损失的设计使类间距离扩大1.7倍,显著改善混淆表情的区分度。

这项发表于《Computer Vision and Image Understanding》的研究具有三重里程碑意义:方法论上,首次建立半监督FER中表征学习与伪标签生成的协同优化范式;技术上,开发的EAF模块可作为插件提升现有方法,在RAFDB数据集上使Mean Teacher框架提升6.2个点;应用层面,为数字人情感交互提供了数据高效的解决方案。正如研究者强调的,LEAF框架的成功印证了"同时把握硬币两面"的哲学智慧——只有当算法学会区分什么是表情的本质特征时,它才能真正理解人类微妙的情感密码。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号