
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度协方差对齐网络(DCAN)的跨语言抑郁语音检测方法研究
【字体: 大 中 小 】 时间:2025年06月26日 来源:Journal of Affective Disorders 4.9
编辑推荐:
针对现有AI抑郁检测模型跨语言泛化能力不足的问题,研究人员创新性提出深度协方差对齐网络(DCAN),通过英语(DAIC-WOZ)到汉语(MODMA)的迁移学习,实现中英文数据集81.1%-88.7%的准确率,较单语言模型提升21.9%,为多语言抑郁筛查提供新范式。
抑郁作为全球致残率最高的心理疾病,其早期诊断却面临量表主观性强、临床评估成本高的困境。近年来,基于语音的AI抑郁检测技术崭露头角——抑郁患者的语音往往呈现基频变异减小、语速减缓等特征。但现有研究多局限于单一语言,当英语训练的CNN模型直接测试中文数据时,准确率骤降至48.7%,暴露出"语言壁垒"这一卡脖子难题。
为破解这一困局,浙江某高校团队在《Journal of Affective Disorders》发表研究,提出深度协方差对齐网络(Deep Covariance Alignment Network, DCAN)。该研究创新性地采用1 kHz降采样语音,结合卷积自编码器(Convolutional AutoEncoder, CAE)特征与人工特征,通过协方差对齐实现英语(DAIC-WOZ)到汉语(MODMA)的知识迁移。实验设计包含三组对比:传统机器学习模型、单语言深度学习模型、主流迁移学习方法,采用t-SNE进行特征空间可视化解析。
主要技术路线
研究使用DAIC-WOZ(189例英语受访者)和MODMA(52例汉语受访者)数据集,通过PHQ-8≥10划分抑郁组。技术核心包括:1)1 kHz降采样语音预处理;2)CAE深度特征与手工特征融合;3)DCAN网络通过最大均值差异(MMD)最小化实现源域(英语)和目标域(汉语)的协方差对齐;4)采用F1-score、准确率等指标评估,通过t-SNE可视化特征分布。
研究结果
结论与展望
该研究首次验证语音抑郁标志物存在跨语言共性,DCAN通过深度特征对齐打破"数据孤岛"效应。其价值在于:1)减少多语言数据采集成本;2)为资源匮乏语种提供技术迁移路径。局限在于未涵盖更多语系,未来可扩展至德语、阿拉伯语等差异更大的语言。这项工作为构建普惠型精神健康筛查系统提供了重要方法论支撑,标志着AI辅助诊断从单语言向多语言生态迈进的关键一步。
生物通微信公众号
知名企业招聘