基于声 - 语言 - 视觉线索的双相情感障碍躁狂分类多模态机器学习模型研究

【字体: 时间:2025年05月27日 来源:Intelligence-Based Medicine CS5.0

编辑推荐:

  为解决双相情感障碍诊断依赖主观评估、易误诊等问题,研究人员开发多模态融合系统,结合听觉、语言、视觉数据,利用深度降噪自编码器(DDAEs)和多任务神经网络(MTNN)进行躁狂分类,获 64.8% 的 UAR,凸显多模态融合价值。

  双相情感障碍(Bipolar Disorder, BD)作为一种严重影响心理健康的疾病,其诊断长期依赖患者自述、临床访谈等主观评估方式,容易受偏见、患者回忆偏差等因素干扰,导致误诊或漏诊率居高不下。据统计,全球约 2% 人口受双相情感障碍影响,印度患病率约 1/150,但 70% 病例因认知不足未获治疗。传统诊断中,双相情感障碍常与重度抑郁症(MDD)混淆,且其核心症状如情绪波动、言语增多、睡眠减少等缺乏客观量化指标,亟需更精准的辅助诊断工具。在此背景下,来自相关机构的研究人员开展了一项旨在通过多模态机器学习提升双相情感障碍躁狂阶段分类准确性的研究,该研究成果发表在《Intelligence-Based Medicine》。
研究人员构建了一个基于听觉、语言和视觉数据的三阶段躁狂分类决策系统。研究使用的数据集包含 164 例双相情感障碍患者的临床访谈音视频记录,通过 Young 躁狂评定量表(YMRS)标注为缓解期(YMRS≤7.0)、轻躁狂(7.0<YMRS<20.0)和躁狂(YMRS≥20.0)三类。关键技术方法包括:①音频特征提取,采用 Mel 频率倒谱系数(MFCCs)和 GeMAPS 参数,捕捉语音的频谱和韵律特征;②视觉特征提取,利用面部动作编码系统(FACS)分析面部动作单元(FAUs)、面部 landmarks、头姿势等;③语言特征提取,通过 TF-IDF、Linguistic Inquiry and Word Count(LIWC)工具和情感极性分析挖掘文本中的心理和语言模式;④多模态融合,使用深度降噪自编码器(DDAEs)学习跨模态共同表示,将分布式特征和瞬态信息编码为 Fisher 向量(FVs),结合文档嵌入后通过多任务神经网络(MTNN)进行分类,并采用加权决策融合策略优化结果。

实验结果


  1. 单模态性能:音频模态中 eGeMAPS10 特征表现最佳,UAR 达 59.2%;语言模态 LIWC 特征 UAR 为 51.8%;视觉模态几何特征(GEO-Mean,Std.)UAR 为 60.7%。
  2. 多模态融合效果:通过多数投票融合 eGeMAPS10(音频)、LIWC(语言)和 FAU(视觉)特征,测试集 UAR 达 64.8%,AUC-ROC 为 0.85,推理时间仅 6.5 ms/sample,显著优于单模态模型。
  3. 模型对比:与基线模型如 Ordinal Multi-Class SVM(OMSVM)和 Kernel ELM 相比,多模态模型在 precision、recall 和 F1-score 上均显著提升,尤其在躁狂和缓解期分类中表现更优。

结论与讨论


该研究首次通过整合声 - 语言 - 视觉多模态数据,构建了双相情感障碍躁狂分类的自动化模型,证明多模态融合可有效提升诊断准确性。深度降噪自编码器(DDAEs)在跨模态特征学习中的应用,以及 Fisher 向量与多任务神经网络的结合,为解决小样本、高维度数据的分类问题提供了新范式。研究结果不仅验证了行为信号中隐藏的诊断价值(如语音韵律变化、面部微表情与躁狂严重程度的关联),还为开发便携式智能诊断工具奠定了基础,有望在资源有限的医疗环境中辅助临床决策,推动个性化精神健康护理的发展。尽管存在样本量小、类不平衡等局限,但该研究为双相情感障碍的客观诊断开辟了新方向,未来结合更大规模多中心数据和遗传、神经影像等模态,将进一步提升模型的泛化能力和临床实用性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号