基于深度协方差对齐网络(DCAN)的跨语言抑郁语音检测方法研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月26日 来源：Journal of Affective Disorders 4.9

编辑推荐：

　　针对现有AI抑郁检测模型跨语言泛化能力不足的问题，研究人员创新性提出深度协方差对齐网络(DCAN)，通过英语(DAIC-WOZ)到汉语(MODMA)的迁移学习，实现中英文数据集81.1%-88.7%的准确率，较单语言模型提升21.9%，为多语言抑郁筛查提供新范式。

抑郁作为全球致残率最高的心理疾病，其早期诊断却面临量表主观性强、临床评估成本高的困境。近年来，基于语音的AI抑郁检测技术崭露头角——抑郁患者的语音往往呈现基频变异减小、语速减缓等特征。但现有研究多局限于单一语言，当英语训练的CNN模型直接测试中文数据时，准确率骤降至48.7%，暴露出"语言壁垒"这一卡脖子难题。

为破解这一困局，浙江某高校团队在《Journal of Affective Disorders》发表研究，提出深度协方差对齐网络(Deep Covariance Alignment Network, DCAN)。该研究创新性地采用1 kHz降采样语音，结合卷积自编码器(Convolutional AutoEncoder, CAE)特征与人工特征，通过协方差对齐实现英语(DAIC-WOZ)到汉语(MODMA)的知识迁移。实验设计包含三组对比：传统机器学习模型、单语言深度学习模型、主流迁移学习方法，采用t-SNE进行特征空间可视化解析。

主要技术路线
研究使用DAIC-WOZ(189例英语受访者)和MODMA(52例汉语受访者)数据集，通过PHQ-8≥10划分抑郁组。技术核心包括：1)1 kHz降采样语音预处理；2)CAE深度特征与手工特征融合；3)DCAN网络通过最大均值差异(MMD)最小化实现源域(英语)和目标域(汉语)的协方差对齐；4)采用F1-score、准确率等指标评估，通过t-SNE可视化特征分布。

研究结果

跨语言性能突破：DCAN在英语/中文测试集分别达88.7%/81.1%准确率，较单语言CNN模型平均提升21.9%。特别在中文测试中，DCAN比直接迁移的CNN(59.2%)显著改善。
特征空间解析：t-SNE显示DCAN能有效缩小中英文抑郁样本在高维空间的分布差异，而传统模型出现特征重叠。
方法学优势：对比CORAL、DDC等迁移方法，DCAN保持4%的性能优势，证实协方差对齐对跨语言特征迁移的有效性。

结论与展望
该研究首次验证语音抑郁标志物存在跨语言共性，DCAN通过深度特征对齐打破"数据孤岛"效应。其价值在于：1)减少多语言数据采集成本；2)为资源匮乏语种提供技术迁移路径。局限在于未涵盖更多语系，未来可扩展至德语、阿拉伯语等差异更大的语言。这项工作为构建普惠型精神健康筛查系统提供了重要方法论支撑，标志着AI辅助诊断从单语言向多语言生态迈进的关键一步。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号