融合残差块与视觉Transformer的广义监督对比学习框架：微表情识别中的全局-局部特征协同优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月19日 来源：Pattern Recognition Letters 3.9

编辑推荐：

　　针对微表情(Micro-expressions, MEs)识别中数据稀缺、特征提取困难等问题，研究人员提出GSCL-RVT框架，通过残差块与视觉Transformer(RVT)融合实现多层级特征提取，结合广义监督对比学习(GSCL)优化语义空间度量，并创新性采用区域替换数据增强策略。实验证明该方法在单库(SDE)和复合库(CDE)评估中均取得领先性能，为情感计算提供新思路。

论文解读
人类面部肌肉的细微颤动往往隐藏着真实情绪，这种持续时间不足0.2秒的微表情（Micro-expressions, MEs）在刑侦审讯、临床诊断等领域具有重要价值。然而，MEs的瞬时性（0.04-0.2秒）和低强度（肌肉收缩幅度仅约1mm）使其识别面临三大挑战：传统手工特征（如LBP-TOP³
、HOOF⁵
）难以捕捉时空动态；深度学习易受数据稀缺制约；全局与局部特征难以协同优化。现有方法中，纯卷积网络易忽略长程依赖，而Transformer又可能引入冗余噪声。更棘手的是，公开MEs数据集（如SMIC、CASME II）样本量普遍不足200例，且存在跨库类别不兼容问题（SMIC仅3类而CASME II含5类）。

针对上述问题，中国国家自然科学基金支持的研究团队在《Pattern Recognition Letters》提出创新解决方案。该工作核心突破在于：1）构建残差视觉Transformer（RVT）网络，通过"卷积层→残差块→Transformer编码层→残差块"的级联架构，实现从局部细节（如眼周皱纹）到全局上下文（如面部对称性）的多尺度特征融合；2）设计广义监督对比学习（GSCL）策略，将传统one-hot标签转化为混合概率分布，通过最小化标签相似度与特征相似度的交叉熵，使同类样本在潜在空间紧密聚集；3）开发基于结构相似性（SSIM⁸
）的区域替换增强技术，通过替换同类样本的局部光学流特征区域（如额头或嘴角），在保持生理合理性的前提下扩充数据。

关键技术方法包括：采用SMIC/CASME II/SAMM三个权威数据集，通过SDE（单库评估）和CDE（复合库评估）双协议验证；使用残差块提取局部纹理特征，Transformer编码层建模全局关系；GSCL损失函数结合交叉熵与对比学习；基于SSIM的样本质量控制。

研究结果

网络架构优化：RVT在CASME II上的五分类准确率达78.36%，较纯CNN或Transformer基线提升9.2%，证明残差连接能有效缓解Transformer在细粒度识别中的过平滑问题。
训练策略创新：GSCL使跨库（CDE）宏F1-score提升12.7%，其混合标签机制显著缓解了SMIC与CASME II的类别不匹配问题。
数据增强验证：区域替换使模型在小样本（10%训练数据）场景下仍保持68.4%准确率，SSIM阈值设为0.85时可过滤92%的失真样本。

结论与意义
该研究首次实现MEs识别中局部-全局特征的动态平衡：RVT的残差块精准捕捉肌肉颤动细节（如鼻翼微扩），而Transformer层建模面部区域间协同变化（如眉眼联动）。GSCL通过软标签对比学习，在语义空间构建"情感拓扑图谱"——愤怒与厌恶样本间距缩短37%，而与喜悦样本间距扩大2.1倍。区域替换增强技术突破MEs数据瓶颈，生成样本经专家评估具有89.3%的生理合理性。这些创新使该方法在司法测谎、抑郁症早期筛查等场景具备应用潜力，其跨库评估框架更为解决医学图像分析中的领域偏移问题提供范式参考。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号