多尺度面部区域特征选择的三分支注意力网络在面部表情识别中的应用与性能优化

【字体: 时间:2025年07月19日 来源:Pattern Recognition 7.5

编辑推荐:

  研究人员针对面部表情识别(FER)中存在的遮挡、姿态变化及细微表情变化等难题,创新性提出三重分支注意力网络(TriBAN)。该网络通过全局分支、大局部分支和小局部分支的多尺度特征选择,结合图卷积网络(GCN)整合空间关联特征,在RAF-DB等数据集上实现优于ResNet18的识别性能,推理速度较ViT提升2倍以上,为医疗诊断和人机交互提供新方案。

  

面部表情识别(FER)技术作为计算机视觉领域的重要研究方向,在医疗诊断、驾驶员状态监控等领域展现出巨大应用潜力。然而现实场景中,面部遮挡、头部姿态变化以及细微表情变化导致的类内差异大、类间相似度高的问题,严重制约了传统FER系统的性能。现有基于面部关键点或平均分割的局部区域提取方法,往往因光照变化或表情强度减弱导致特征丢失,而过度依赖小区域又面临计算冗余和上下文信息不足的困境。

韩国国立研究基金会(NRF)资助的研究团队在《Pattern Recognition》发表创新成果,提出三重分支注意力网络(Triple-branch Attention Network, TriBAN)。该网络通过三个创新性分支结构——全局特征提取模块(GE)、大局部注意力模块(LLA)和小局部注意力模块(SLA),结合像素重排(pixel shuffle)技术和新型位置编码方法,实现了多尺度面部特征的协同优化。关键技术包括:(1)采用ResNet18基础块预提取中级全局特征;(2)通过均匀分割和注意力掩模生成m个大局部区域;(3)基于全局分支置信度筛选16个关键小区域;(4)利用图卷积网络组合器(GCNC)整合空间关联特征。

Effect of Small Local Branch
实验表明,SLA模块结合像素重排使RAF-DB数据集准确率提升2.3%,最优性能出现在选择16个上采样特征时。该设计有效增强了边缘信息鲁棒性,对眉毛压低(brow lowerer)等细微动作的捕捉精度显著提高。

Ablation Studies
消融实验验证了各模块的互补性:GCNC与位置编码(PE)组合在AffectNet上产生1.7%的协同增益,证明结构关系建模对特征整合的关键作用。与ViT相比,TriBAN在保持相当精度的同时,推理速度提升至2.1倍。

Conclusion
该研究创新性地将多尺度区域选择与注意力机制相结合,提出的TriBAN网络通过三重分支架构实现了从宏观表情特征到微观肌肉运动的全面解析。特别是SLA模块通过位置信息引导的区域筛选机制,在保持计算效率的同时,对嘴唇角牵拉(lip corner puller)等低强度表情的识别准确率提升显著。这项工作为复杂场景下的实时FER系统提供了新的技术范式,其模块化设计思路对相关医学图像分析领域具有重要借鉴意义。论文通讯作者Jae Young Choi指出,该方法在抑郁症患者微表情识别等医疗场景已展开应用验证。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号