多级时空图注意力融合模型(MSGAF)在抑郁症多模态检测中的创新应用

【字体: 时间:2025年06月16日 来源:Biomedical Signal Processing and Control 4.9

编辑推荐:

  针对现有抑郁症检测方法存在模态内交互不足、跨模态语义关系建模缺失等问题,研究人员提出多级时空图注意力融合模型(MSGAF),通过多特征时序融合(MTF)模块和双向融合图(BiFG)实现模态内外动态交互,在DAIC-WOZ和E-DAIC数据集上达到SOTA性能,为抑郁症客观筛查提供新范式。

  

抑郁症作为全球致残率最高的精神疾病之一,其早期筛查却长期受限于主观评估的局限性。传统诊断依赖医生经验和患者自述,易受经验偏差和病耻感影响。尽管多模态检测技术通过整合语音、表情和文本数据展现出潜力,但现有方法面临两大瓶颈:一是小样本数据集导致模型易过拟合,二是模态融合多采用简单的向量拼接,难以捕捉跨模态动态关联。这些缺陷使得现有系统难以满足临床对客观、量化筛查工具的需求。

针对这一挑战,四川省自然科学基金支持的研究团队开发了多级时空图注意力融合模型(MSGAF)。该研究创新性地将图神经网络(GNN)引入多模态抑郁症分析,通过分层融合策略突破传统方法的静态融合局限。团队从DAIC-WOZ等标准数据集中提取6类特征:音频采用MFCC(梅尔频率倒谱系数)和eGeMAPS(扩展日内瓦精简声学参数集),视频分析头部姿态(Pose)、视线方向(Gaze)和面部动作单元(AUs),文本则通过BERT预训练模型编码。关键技术包括:1)多特征时序融合(MTF)模块实现模态内特征交互;2)构建双向融合图(BiFG)表征跨模态关系;3)图注意力机制动态平衡模态权重。

多特征时序融合模块设计
MTF模块采用多层感知机(MLP)架构,对同一时间窗内的多特征进行压缩融合。实验显示该设计使音频特征的交互效率提升23.7%,视频特征维度降低40%仍保持90%以上信息量,有效缓解了小样本过拟合问题。

双向融合图构建
研究创新性地将音频、视频、文本模态映射为图节点,通过多级融合形成BiFG拓扑结构。注意力机制分析表明,文本-视频节点的边权重普遍高于音频-视频边,证实语言与表情的抑郁表征具有更强关联性。

跨模态动态交互
相比传统拼接融合,MSGAF的图注意力层使跨模态信息传递效率提升35.2%。消融实验证实,三模态融合的PHQ-8预测误差(MAE=3.62)显著优于双模态组合(p<0.01),验证了多模态互补价值。

该研究在DAIC-WOZ测试集上达到0.89的相关系数,超越GFN等基线模型12%。特别在轻度抑郁识别中,MSGAF的F1分数较传统方法提高19.8%,显示出重要的临床筛查价值。研究团队指出,当前工作仍受限于实验室环境数据,下一步将探索通过迁移学习适应真实医疗场景。这项发表于《Biomedical Signal Processing and Control》的成果,为精神健康监测提供了可解释的AI分析框架,其图注意力融合范式对阿尔茨海默症等神经精神疾病的智能筛查也具有借鉴意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号