
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自掩码音频频谱变换器(AMAST)的抑郁症语音检测创新方法及其临床潜力
【字体: 大 中 小 】 时间:2025年09月18日 来源:Journal of Affective Disorders 4.9
编辑推荐:
本文提出一种新型深度学习框架——自掩码音频频谱变换器(AMAST),通过滑动窗口分割与自掩码训练策略增强语音频谱图的上下文建模能力,并引入时频注意力机制同步捕捉时间与频率特征。该模型在DAIC-WOZ和MODMA数据集上分别达到0.92和0.91的F1值,显著优于基线模型,为无创性抑郁症筛查提供了具有临床转化潜力的技术方案。
Highlight
本研究开发的AMAST框架通过创新性地融合滑动窗口分割、自掩码训练策略和二维时频注意力机制,实现了对抑郁相关语音特征的精准捕捉,为语音辅助诊断提供了新范式。
Introduction
抑郁症是一种以自我参照认知改变和情感表达受损为特征的心理障碍。传统诊断方法成本高且具有侵入性,而基于语音的分析为早期检测提供了可替代方案。近年来,语音声学特征(如抖动和倒谱峰值突出平滑CPPS)已成为抑郁症状的有效指标。随着计算方法的进步,机器学习模型如支持向量机(SVM)和决策树被广泛使用,但其依赖手工特征限制了性能。深度学习模型如卷积神经网络(CNN)、长短期记忆网络(LSTM)和图神经网络(GNN)虽能自动学习特征,却在长程依赖建模上存在局限。注意力机制的引入改善了全局上下文捕捉能力,但音频频谱变换器(AST)在时序建模方面仍有不足。AMAST通过滑动窗口策略保持音频上下文连续性,结合自掩码训练增强模型推理能力,并通过时频注意力机制同步捕捉时间与频谱依赖关系,显著提升了抑郁语音标志物的检测灵敏度。
Methods
AMAST框架集成滑动窗口预处理、自掩码训练策略和时频注意力机制,有效解决了传统模型在全局上下文与局部声学模式捕捉上的局限性。
Results
AMAST能够敏感捕捉抑郁患者与健康对照组在语速、音调调节和情感表达等方面的关键差异,在公开数据集上实现了超越现有方法的分类性能。
Discussion
本节探讨了不同实验任务条件下AMAST的表现,分析了各模块对模型性能的具体贡献,并研究了任务类型与情感刺激对分类准确性的影响。
Conclusion
AMAST通过语音频谱分析有效提取语速、语调及情感 vocal 特征,在词朗读和访谈等任务中表现出色,为抑郁症状识别提供了可靠工具。
生物通微信公众号
知名企业招聘