
-
生物通官微
陪你抓住生命科技
跳动的脉搏
语音数字表型分析在大型支付-提供者系统中检测抑郁严重程度的回顾性研究:语义-声学模型性能验证
【字体: 大 中 小 】 时间:2025年06月30日 来源:JMIR AI
编辑推荐:
为解决抑郁症检测率低、测量不精准的问题,研究人员开展了一项基于2086例真实世界医患通话记录的回顾性研究,通过机器学习(ML)模型整合语音的语义和声学特征预测抑郁严重程度(PHQ-8评分)。结果显示模型在开发集(Dev Set)和盲测集(Blind Set)中均表现稳健(ρc=0.57/0.54,AUROC=0.83/0.81),且跨年龄、性别和社会经济地位(SVI) subgroups 保持稳定。该研究为抑郁症的自动化、客观化筛查提供了新范式,有望提升临床决策效率并推动精准精神健康干预。
研究背景与意义
抑郁症是全球范围内致残率最高的精神健康问题之一,但约50%的高收入国家患者和80%-90%的中低收入国家患者未被确诊。传统筛查工具如患者健康问卷(PHQ-9)依赖主观报告,存在应答偏差(如病耻感导致的低报)和临床实施耗时(占通话时间的20%)等问题。数字表型(Digital Phenotyping)技术通过被动采集行为信号(如语音)为抑郁症的客观检测提供了可能。然而,既往研究多局限于小样本(平均60人)或高度控制的实验环境,且仅分析单一语音模态(声学或语义),缺乏真实世界验证。
研究设计与方法
Highmark Health与Ellipsis Health的研究团队合作,回顾性分析了2086例行为健康(BH)与非BH病例管理通话录音。研究采用双盲设计:开发集(Dev Set,n=1336)用于优化融合模型(声学模型基于wav2vec2架构,语义模型基于Longformer),盲测集(Blind Set,n=671)验证性能。关键技术包括:
研究结果
模型整体性能
盲测集中,模型CCC达0.54,MAE为4.06(低于PHQ-8分类阈值5分),AUROC在四个临床分界点(5/10/15/20)均值为0.81,敏感性与特异性平衡点(EER)为0.73。
跨亚组稳定性
模型在年龄(≤39/40-64/≥65岁)、性别、社会脆弱性指数(SVI 1-4级)及BH/非BH场景中表现一致(AUROC 0.79-0.85)。值得注意的是,≥65岁组CCC达0.61,提示对老年人群(常伴躯体化症状)检测优势。
应答偏差校正价值
在3.1%(42/1336)的病例中,模型预测与PHQ-8评分差异≥2个等级。独立临床医师盲评支持模型结果的概率是支持PHQ-8的2倍,表明语音分析可能减少主观量表的高报/低报误差。
结论与展望
该研究首次证实了融合声学-语义的ML模型在真实临床场景中检测抑郁严重程度的有效性,其性能超越传统量表(PHQ-8)的测量误差范围(MAE<5分)。尤其值得关注的是:
论文发表于《JMIR AI》,为数字表型技术从概念验证(proof-of-concept)向临床实践转化提供了里程碑式证据。后续研究需扩大非BH场景样本(当前n=110),并纳入种族/ ethnicity 多样性分析以完善算法公平性。
生物通微信公众号
知名企业招聘