基于普通话语音与深度学习识别双相障碍患者情绪状态:自监督特征与融合模型的突破

《BMC Psychiatry》:Mood states recognition based on Mandarin speech and deep learning in patients with bipolar disorder

【字体: 时间:2025年11月25日 来源:BMC Psychiatry 3.6

编辑推荐:

  为克服临床评估主观偏差,Jinhao Li等利用普通话语音样本,构建融合LSTM与ECAPA-TDNN的“Ours”模型,以WavLM自监督特征实现双相障碍躁狂、抑郁与缓解期三类情绪状态识别准确率85.79%,为客观监测提供新 biomarker。

  
研究背景 双相障碍(bipolar disorder,BD)是一种以反复躁狂/抑郁发作为特征的严重精神疾病,全球患病率超1%,自杀风险极高。临床依赖量表与患者自述评估情绪状态,易受观察者偏差与认知偏差影响,尤其在躁狂期患者缺乏病识感时更为突出,导致误诊、延迟干预。语音作为一种无创、易得、客观的生物信号,已被观察到随情绪变化:躁狂时语速快、音调高,抑郁时相反。然而既往研究多聚焦英语语境,且仅区分BD与健康人群,鲜少精准识别三种核心情绪状态——(轻)躁狂发作、抑郁发作与缓解期(euthymic state)。汉语作为声调语言,音高承载语义与情感双重信息,声学特征与英语差异显著,亟需构建适用于普通话的精准识别模型。
为填补空白,天津安定医院联合天津师范大学与广州医科大学团队,于2023年3月至2024年4月招募53例BD患者,采集标准化访谈语音,开发基于普通话语音与深度学习的情绪状态识别系统,成果在线发表于《BMC Psychiatry》。
关键技术方法 研究采用横断面设计,采集安静电磁屏蔽室内20 cm固定距离的无损WAV语音,经3 s分段获得2990条样本;提取Mel频谱图、HuBERT与WavLM三种特征,以WavLM(90.13%识别率)最优;构建LSTM、ECAPA-TDNN及融合两者并加入时间-频率注意力(TFA)的“Ours”模型;以WA、UA、Macro_F1评估性能。
研究结果
  1. 受试者特征
    53例BD患者分为(轻)躁狂19例、抑郁15例、缓解19例;抑郁组年龄更轻、功能损害(FAST评分)更高、全职工作比例更低。
  2. 语音特征比较
    WavLM自监督特征准确率90.13%,显著优于HuBERT(67.56%)与Mel频谱(58.09%)。
  3. 模型性能评估
    “Ours”模型UA 85.94%、WA 85.79%、Macro_F1 85.78%,较LSTM提升约7%,较ECAPA-TDNN提升2.5%;消融实验显示去除TFA后各项指标下降2%以上。混淆矩阵显示“Ours”对缓解期识别率达95.81%,抑郁90%,(轻)躁狂78.18%,显著优于基线模型。
结论与讨论 研究首次在普通话语境下证实:融合WavLM自监督特征与LSTM-ECAPA-TDNN-TFA架构可客观、精准识别BD三种情绪状态,为语音生物标志物(biomarker)提供实证。TFA层揭示抑郁语音低频慢时相、躁狂语音高频快时相,与临床观察一致,增强模型可解释性。未来可嵌入手机端实现远程实时监测,辅助临床提前预警情绪波动。局限性包括样本量小、未纳入药物与方言因素、缺健康对照,需扩大队列并追踪纵向变化以验证因果。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号