基于交叉方向注意力网络的新型面部表情识别方法及其在情感计算中的应用

【字体: 时间:2025年06月20日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  研究人员针对面部表情识别(FER)中特征提取不充分的问题,创新性地提出交叉方向注意力网络(CDAN-I/II)。通过扩展Distract your Attention Network(DAN)框架,将空间注意力(SA)模块内部通道维度提升至512/1024,在RAF-DB等四大基准数据集上超越现有技术,并利用Silhouette Criterion(SC)等指标验证了特征空间聚类效果的提升,为计算机视觉情感分析提供了新范式。

  

面部表情识别(FER)作为人机交互的核心技术,长期面临"细微肌肉运动难捕捉"和"类间差异模糊"的双重挑战。现有Distract your Attention Network(DAN)框架虽通过空间-通道注意力机制取得进展,但其空间注意力(SA)模块将内部通道压缩至1维的操作,可能丢失关键特征信息。这一瓶颈在真实场景中尤为突出——当遇到光照变化、面部遮挡等情况时,传统方法识别准确率会显著下降。

中国电子科技大学中山学院的研究团队在《Engineering Applications of Artificial Intelligence》发表的研究中,创造性提出交叉方向注意力网络(Cross Directional Attention Network, CDAN)。该研究突破性地将SA模块内部通道维度扩展至与输入同维(CDAN-I)或双倍维度(CDAN-II),通过多分支并行结构提取高阶特征,最终在保持输出维度不变的前提下实现特征空间优化。关键技术包括:1)基于ResNet-18的特征初始化;2)多路径注意力融合架构;3)采用Calinski-Harabasz Index(CHI)等三维统计指标量化聚类效果;4)在RAF-DB等四大基准数据集上进行跨数据集验证。

方法
研究团队重构了DAN的SA模块架构:CDAN-I保持512维内部通道与输入一致,CDAN-II则扩展至1024维。两者均通过1×1卷积整合特征后,采用三路并行卷积(1×3、3×1、3×3)提取方向性特征,最终通过元素级乘法与原始特征融合。这种设计既保留了DAN的多分支优势,又通过内部通道扩展增强了特征表达能力。

实验结果
在RAF-DB数据集上,CDAN-II取得72.14%的准确率,较DAN提升2.3个百分点。更值得注意的是,通过Silhouette Criterion(SC)分析发现,CDAN-II使类间距离平均扩大19.7%,类内距离缩小12.4%。AffectNet-8数据集的Davies-Bouldin Index(DBI)显示,CDAN系列模型将聚类紧密度指标优化了15.2%,证实了高阶特征提取的有效性。

可视化分析
研究创新性地采用三指标联合验证:SC反映样本与所属类别的紧密度,CHI衡量类间分离度,DBI评估聚类紧致性。这种多维量化方法克服了传统t-SNE可视化难以定量分析的局限,为注意力机制研究提供了新的评估维度。

结论与展望
该研究通过通道维度扩展策略,成功突破了ResNet-18架构在7×7空间分辨率下难以继续下采样的限制。CDAN系列模型不仅实现了四大基准数据集上的state-of-the-art性能,更开创性地建立了注意力机制与特征空间分布的量化关联。未来工作可探索该框架在微表情识别和跨文化情感分析中的应用,其"内部扩展-外部保持"的设计思路也为其他计算机视觉任务提供了新范式。研究获得广东省教育厅特色创新项目(2022KTSCX195)等基金支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号