基于深度协方差对齐网络(DCAN)的跨语言抑郁语音检测方法研究

【字体: 时间:2025年06月26日 来源:Journal of Affective Disorders 4.9

编辑推荐:

  针对现有AI抑郁检测模型跨语言泛化能力不足的问题,研究人员创新性提出深度协方差对齐网络(DCAN),通过英语(DAIC-WOZ)到汉语(MODMA)的迁移学习,实现中英文数据集81.1%-88.7%的准确率,较单语言模型提升21.9%,为多语言抑郁筛查提供新范式。

  

抑郁作为全球致残率最高的心理疾病,其早期诊断却面临量表主观性强、临床评估成本高的困境。近年来,基于语音的AI抑郁检测技术崭露头角——抑郁患者的语音往往呈现基频变异减小、语速减缓等特征。但现有研究多局限于单一语言,当英语训练的CNN模型直接测试中文数据时,准确率骤降至48.7%,暴露出"语言壁垒"这一卡脖子难题。

为破解这一困局,浙江某高校团队在《Journal of Affective Disorders》发表研究,提出深度协方差对齐网络(Deep Covariance Alignment Network, DCAN)。该研究创新性地采用1 kHz降采样语音,结合卷积自编码器(Convolutional AutoEncoder, CAE)特征与人工特征,通过协方差对齐实现英语(DAIC-WOZ)到汉语(MODMA)的知识迁移。实验设计包含三组对比:传统机器学习模型、单语言深度学习模型、主流迁移学习方法,采用t-SNE进行特征空间可视化解析。

主要技术路线
研究使用DAIC-WOZ(189例英语受访者)和MODMA(52例汉语受访者)数据集,通过PHQ-8≥10划分抑郁组。技术核心包括:1)1 kHz降采样语音预处理;2)CAE深度特征与手工特征融合;3)DCAN网络通过最大均值差异(MMD)最小化实现源域(英语)和目标域(汉语)的协方差对齐;4)采用F1-score、准确率等指标评估,通过t-SNE可视化特征分布。

研究结果

  1. 跨语言性能突破:DCAN在英语/中文测试集分别达88.7%/81.1%准确率,较单语言CNN模型平均提升21.9%。特别在中文测试中,DCAN比直接迁移的CNN(59.2%)显著改善。
  2. 特征空间解析:t-SNE显示DCAN能有效缩小中英文抑郁样本在高维空间的分布差异,而传统模型出现特征重叠。
  3. 方法学优势:对比CORAL、DDC等迁移方法,DCAN保持4%的性能优势,证实协方差对齐对跨语言特征迁移的有效性。

结论与展望
该研究首次验证语音抑郁标志物存在跨语言共性,DCAN通过深度特征对齐打破"数据孤岛"效应。其价值在于:1)减少多语言数据采集成本;2)为资源匮乏语种提供技术迁移路径。局限在于未涵盖更多语系,未来可扩展至德语、阿拉伯语等差异更大的语言。这项工作为构建普惠型精神健康筛查系统提供了重要方法论支撑,标志着AI辅助诊断从单语言向多语言生态迈进的关键一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号