
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于时序特征增强与CTC损失的多模态分层Transformer抑郁症检测模型(MTC-Former)
【字体: 大 中 小 】 时间:2025年08月14日 来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
【编辑推荐】本研究提出创新性多模态分层Transformer模型(MTC-Former),通过多模态注意力融合模块(MAF)整合音频/文本/视频特征,结合时序特征融合模块(TF-FM)和CTC-交叉熵联合损失函数,在DAIC-WOZ数据集实现MF1=0.926的优异性能,为抑郁症的客观诊断提供新范式。
Highlight
我们提出创新的多模态分层Transformer架构,突破传统交叉注意力仅能融合双模态的限制。通过多模态注意力融合模块(MAF)结合交叉注意力与自注意力机制,实现音频-文本-视频三模态特征协同整合。基于人类情感表达的结构特性,设计"帧-音素-词汇"三阶段分层处理架构以精炼特征。
人类情绪具有连续性表达特征,MTC-Former通过时序特征融合模块(TF-FM)为抑郁症检测提供先验知识。通过整合同一受访者的时序处理特征,模型能捕捉情绪延续性以辅助当前检测任务。
针对抑郁症二元分类任务中标签难以指导模型学习具体抑郁特征的问题,我们提出采用伪标签生成技术结合CTC损失,与交叉熵损失共同构成新型联合损失函数。
Method
基于我们先前提出的DWAM-Former模型(第2.2节),本研究将分层Transformer架构扩展至多模态领域,开发出MTC-Former(时序特征与CTC损失增强的多模态分层Transformer)模型。该模型通过注意力机制改进多模态特征对齐,促进跨模态互补信息的连贯整合。
Influence analysis and setting of experimental parameters
为确定MTC-Former的最佳训练周期,本研究可视化呈现了联合损失值随训练进程的变化趋势(如图5)。前60个周期内损失值随训练周期快速下降,60周期后下降速率显著减缓,约90周期时趋于稳定。因此将训练周期设为90,在模型性能与计算成本间取得平衡。
Conclusion
由于人类通过多模态表达情绪状态,多模态数据能更有效反映特定情绪。但现有研究大多未能有效整合异源模态特征,且忽略上下文关联性。此外,多阶段特征提取过程中的信息损失问题也亟待解决。
生物通微信公众号
知名企业招聘