综述:关于视觉变换器(Vision Transformer)和可解释人工智能(Explainable AI)在多模态面部表情识别领域进展的系统综述
《Intelligent Systems with Applications》:A systematic review of vision transformer and explainable AI advances in multimodal facial expression recognition
【字体:
大
中
小
】
时间:2025年12月07日
来源:Intelligent Systems with Applications 4.3
编辑推荐:
多模态面部表情识别研究综述2021-2025年,系统分析Vision Transformer(ViT)与可解释AI(XAI)方法在融合策略、数据集及性能提升中的应用,指出ViT通过长距离依赖建模提升分类准确率,但存在隐私风险、数据不平衡及高计算成本等挑战,未来需结合隐私保护技术与高效模型优化。
本文系统综述了2021至2025年间基于Vision Transformer(ViT)架构与可解释人工智能(XAI)技术的多模态面部表情识别(FER)研究进展,涵盖数据集分析、融合策略、模型架构及可解释性方法四大核心领域,并总结了当前挑战与未来方向。
### 一、研究背景与意义
面部表情作为非语言沟通的核心载体,其识别技术广泛应用于医疗诊断、人机交互、情感计算等领域。传统单模态方法(如纯视觉或语音分析)因数据维度单一、忽略跨模态信息互补性,导致识别准确率受限。2020年后,Transformer架构凭借全局注意力机制显著提升了图像识别能力,尤其适用于捕捉面部远处区域(如眉毛与嘴唇)的关联特征。例如,Wang等(2025)通过ViT融合视觉与EEG信号,在DEAP数据集上达到96.72%的准确率,较传统CNN提升约15%。然而,ViT模型的可解释性不足与多模态融合的复杂性阻碍了其在关键场景(如医疗、司法)的部署。
### 二、多模态数据集与特征融合
#### 1. 多模态数据集演进
现有数据集主要分为两类:
- **视听文本融合集**:如MELD(13,708个视频对话样本)、CMU-MOSEI(23,453个视频片段)和IEMOCAP(10小时多人对话数据),支持跨模态联合建模。MELD通过《老友记》剧集提取13,708个标注样本,涵盖7种基本情绪;
- **生理信号融合集**:DEAP(32人脑电数据)、MAHNOB-HCI(27人混合模态数据)和PhyMER(30人生理信号),重点捕捉心率、皮肤电导等生理指标与情绪的关联性。例如,PhyMER通过同步记录40名参与者的EEG、ECG和面部视频,构建了首个大规模生理-视觉融合数据库。
#### 2. 融合策略的优化路径
研究通过对比实验揭示了不同融合策略的适用场景:
- **早期融合**:将视觉、语音、文本特征直接拼接(如Chaudhari等,2022),适用于小规模数据集,计算效率高但易受模态间时序异步影响;
- **晚期融合**:先独立建模各模态(如CNN处理图像、BERT处理文本),再通过加权平均或投票机制合并结果(如Almulla,2024)。该方法实现灵活,但可能丢失跨模态关联;
- **混合融合**:结合特征级与决策级融合。例如,Cimtay等(2020)在LUMED-2数据集上,先通过CNN提取视觉特征,再与同步采集的EEG信号在Transformer层融合,实现单主体识别准确率81.2%,显著高于单独模态的74.5%。
#### 3. ViT架构的突破性应用
ViT通过全局自注意力机制解决了传统CNN局部特征提取的局限。在FER领域,其优势体现在:
- **长程依赖建模**:通过分块图像(如16x16像素)的全局注意力,捕捉眼角、鼻梁、下颌等区域的空间关联(如Zhao等,2022在CASME II数据集上达到81.5%准确率);
- **跨模态迁移**:Wang等(2025)在DEAP数据集上,将ViT提取的视觉特征与EEG信号通过对比学习对齐,使模型对愤怒、悲伤等复杂情绪的识别率提升至96.7%;
- **轻量化改进**:Song与Cho(2025)提出的CLIP-ViT架构,通过预训练文本编码器与视觉Transformer的跨模态注意力融合,在CMU-MOSEI数据集上达到84%准确率,且模型参数量减少40%。
### 三、可解释性技术的深度整合
#### 1. XAI方法在ViT中的创新应用
现有研究主要采用两类XAI技术:
- **全局解释**:如SHAP量化各模态贡献比例(Qiang等,2023在CMU-MOSEI上发现文本模态对恐惧情绪识别贡献率达32%)、Grad-CAM热力图定位关键区域(Kadakia等,2022在SMIC数据集上显示,嘴角与眼角区域对喜悦识别的敏感度最高);
- **局部解释**:LIME通过扰动单个像素评估局部重要性(Augusma等,2023在IEMOCAP数据集上,成功解释75%的误判案例),CAV向量(Asokan等,2022)将概念激活向量映射到面部关键点,使模型可解释性提升60%。
#### 2. XAI与ViT的协同优化
最新研究尝试将可解释性机制嵌入ViT架构:
- **注意力可视化**:Wu等(2021)在ConViT模型中,通过Transformer层级的跨模态注意力权重,动态调整视觉与生理信号融合比例;
- **因果推理**:Mouazen等(2025)结合SHAP与反事实分析,证明EEG信号中的θ波频率对愤怒识别的敏感度比传统方法提高2.3倍;
- **动态解释框架**:Lorch等(2025)提出的多阶段XAI方法,在ViT的每个解码层输出对应注意力权重图,使模型在识别恐惧情绪时,可直观展示前额叶皮层与杏仁核区域的协同激活。
### 四、技术挑战与未来方向
#### 1. 现存技术瓶颈
- **隐私与伦理风险**:多模态数据集(如MAHNOB-HCI)包含身份可追溯信息,在欧盟GDPR合规性审查中,因生物特征数据滥用风险被多次约谈;
- **计算资源消耗**:ViT模型参数量达百亿级(如Swin Transformer),在边缘设备(如智能眼镜)上推理延迟超过200ms,无法满足实时需求;
- **跨模态对齐难题**:生理信号(如EEG)采样频率(500Hz)与视觉(30fps)、文本(单词级)存在数量级差异,导致融合误差率高达18%(Cimtay等,2020)。
#### 2. 前沿技术探索
- **隐私增强架构**:联邦学习框架(如Federated ViT)通过分布式训练保护数据隐私,在SEED数据集上的测试误差较集中训练降低37%;
- **轻量化ViT变体**:Shifted Window ViT(SWiT)通过滑动窗口机制减少计算量30%,在移动端实现95ms内完成单帧识别;
- **多模态XAI框架**:Khalane等(2025)提出的多模态SHAP方法,通过联合分布建模,使跨模态特征重要性计算误差从15%降至7%。
#### 3. 行业应用前景
- **医疗诊断**:整合EEG与面部微表情的XAI模型,在抑郁症筛查中准确率达89%(MultiDepNet,2025);
- **自动驾驶**:通过ViT+Transformer融合视听数据,实现驾驶员注意力检测(F1-score 92.4%,Wang等,2025);
- **教育评估**:基于生理信号与面部表情的混合模型,可实时监测课堂情绪波动(误差率<8%)。
### 五、研究总结
本文揭示:ViT通过全局注意力机制将情感识别准确率提升至92%-97%,但需配合XAI技术(如SHAP解释模型权重、Grad-CAM定位关键区域)才能满足医疗、司法等高可信场景需求。未来需突破三大方向:
1. **隐私计算**:研发联邦学习+同态加密的ViT架构,目标降低90%的隐私泄露风险;
2. **实时优化**:开发轻量化ViT(参数量<50亿)与边缘计算加速方案;
3. **动态解释**:构建模态间动态注意力权重调整机制,解决跨模态时序异步问题。
该综述为多模态情感识别研究提供了标准化分析框架,特别为ViT与XAI的融合应用指明了技术路径,对推进情感计算技术落地具有重要参考价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号