基于注意力驱动上下文特征融合网络的面部视频抑郁识别研究

《Biomedical Signal Processing and Control》:Attention-driven contextual feature fusion network for facial videos-based depression recognition

【字体: 时间:2025年10月19日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  本文提出一种新颖的注意力驱动上下文特征融合网络(ACF-Net),通过多尺度空间注意力机制(AFAM)与全局上下文注意力机制的协同作用,有效解决了面部视频抑郁识别中局部特征与全局表征的融合难题。该模型在AVEC 2013/2014数据集上取得MAE 6.87/6.51、RMSE 9.05/8.68的优异性能,可视化分析进一步验证其对抑郁相关面部区域(如眉部、鼻唇沟)的精准响应,为精神健康评估提供了可靠的技术支撑。

  
Section snippets
Related work
自动抑郁评估:抑郁患者的面部表情受情绪波动影响显著,更易出现表达中断。研究表明抑郁患者的面部表情常受限,悲伤情绪更普遍,笑容强度减弱,眼神接触显著减少。与健康人群相比,抑郁患者的面部活动频率和幅度均呈现下降趋势。
Proposed method
本文提出的ACF-Net模型通过注意力驱动特征关联模块,实现了全局与局部情绪特征的有效提取与融合。该模块首先利用多尺度卷积捕捉局部细微表情特征,再通过全局上下文注意力机制加权整合全脸信息,最终通过特征映射关联优化抑郁识别的精度与鲁棒性。
Datasets
采用AVEC 2013和AVEC 2014抑郁子挑战数据集进行模型训练与评估。如表1所示,这两个数据集将抑郁严重程度分为四级,其独特优势在于提供原始视频数据。AVEC 2013包含150段受试者视频片段,每段伴随PHQ-8抑郁量表评分;AVEC 2014则扩展至200段视频,并增加动态面部行为标注。
Limitations and future work
当前模型在高性能计算平台表现良好(100样本推理时间约10.52秒),但移动设备部署时需优化计算效率。未来将探索模型轻量化设计,并整合多模态数据(如语音、生理信号)以提升临床实用性。
Conclusion
ACF-Net通过多尺度空间注意力与全局上下文注意力的创新融合,显著提升了抑郁识别的特征表征能力。模型在保留局部细微表情特征的同时,强化了全局情绪状态的上下文感知,为基于计算机视觉的精神健康评估提供了新的技术范式。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号