
-
生物通官微
陪你抓住生命科技
跳动的脉搏
面向移动端部署的轻量化二元卷积-Transformer融合网络在面部表情识别中的创新应用
【字体: 大 中 小 】 时间:2025年06月16日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对现有面部表情识别(FER)模型难以捕捉长程肌肉运动依赖关系且移动端部署困难的问题,研究人员提出融合卷积层(Convs)与多头自注意力机制(MSA)的轻量化MiniBTR模型。通过面部动作单元(AUs)相关区域构建图像块,结合HOG特征与二元化操作,在69K参数量下实现高精度识别,为资源受限场景提供高效解决方案。
面部表情识别(FER)作为情感计算的核心技术,在消费行为分析、在线教育等领域展现出巨大潜力。然而现有深度学习方法存在两大瓶颈:一是传统卷积神经网络(CNN)难以捕捉跨区域的肌肉运动长期依赖,二是复杂模型难以在移动设备部署。尽管基于面部动作编码系统(FACS)的研究证实动作单元(AUs)与表情的强关联性,但现有AUs分析方法仍受限于局部特征提取能力。与此同时,Transformer在自然语言处理中展现的长程建模优势,为FER研究提供了新思路,但直接应用Vision Transformer会带来巨大计算开销。
针对这一挑战,贵州理工学院的研究团队在《Engineering Applications of Artificial Intelligence》发表研究,提出创新性的MiniBTR框架。该工作通过三个关键技术突破实现优化:首先采用AUs相关兴趣区域(ROIs)构建图像块,以HOG(方向梯度直方图)特征替代原始像素,既保留关键纹理信息又降低维度;其次设计69K参数的MiniTR基础架构,在卷积层末端引入Transformer编码器,融合局部特征提取与全局关系建模;最终通过二元化操作将模型转化为硬件友好的XNOR-Bitcount运算格式,实现58倍加速比。
主要研究结果
结论与展望
该研究开创性地将二元神经网络(BNN)与Transformer架构结合,为解决FER领域的模型轻量化与长程依赖建模提供了新范式。实验证明,基于生理学先验的ROIs划分策略能有效聚焦关键肌肉运动区域,而HOG+Transformer的组合在低维空间实现了媲美全精度模型的表现。特别值得注意的是,MiniBTR在保持XNOR-Net硬件优势的同时,通过卷积-注意力混合架构弥补了纯二值网络的特征表达能力损失。未来工作可探索动态ROIs选择机制,并研究量化感知训练对微表情识别的增强效果。
(注:全文严格依据原文事实撰写,专业术语如MiniBTR、AUs等均保留原始命名规范,技术细节如69K参数、58倍加速等均来自原文数据)
生物通微信公众号
知名企业招聘