语音数字表型分析在大型支付-提供者系统中检测抑郁严重程度的回顾性研究：语义-声学模型性能验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月30日 来源：JMIR AI

编辑推荐：

　　为解决抑郁症检测率低、测量不精准的问题，研究人员开展了一项基于2086例真实世界医患通话记录的回顾性研究，通过机器学习（ML）模型整合语音的语义和声学特征预测抑郁严重程度（PHQ-8评分）。结果显示模型在开发集（Dev Set）和盲测集（Blind Set）中均表现稳健（ρc=0.57/0.54，AUROC=0.83/0.81），且跨年龄、性别和社会经济地位（SVI） subgroups 保持稳定。该研究为抑郁症的自动化、客观化筛查提供了新范式，有望提升临床决策效率并推动精准精神健康干预。

研究背景与意义
抑郁症是全球范围内致残率最高的精神健康问题之一，但约50%的高收入国家患者和80%-90%的中低收入国家患者未被确诊。传统筛查工具如患者健康问卷（PHQ-9）依赖主观报告，存在应答偏差（如病耻感导致的低报）和临床实施耗时（占通话时间的20%）等问题。数字表型（Digital Phenotyping）技术通过被动采集行为信号（如语音）为抑郁症的客观检测提供了可能。然而，既往研究多局限于小样本（平均60人）或高度控制的实验环境，且仅分析单一语音模态（声学或语义），缺乏真实世界验证。

研究设计与方法
Highmark Health与Ellipsis Health的研究团队合作，回顾性分析了2086例行为健康（BH）与非BH病例管理通话录音。研究采用双盲设计：开发集（Dev Set，n=1336）用于优化融合模型（声学模型基于wav2vec2架构，语义模型基于Longformer），盲测集（Blind Set，n=671）验证性能。关键技术包括：

数据预处理：通过亚马逊Transcribe自动语音识别（ASR）和人工标注去除PHQ-9问题片段；
多模态融合：线性加权声学（音调、韵律）与语义（对话内容）特征预测PHQ-8评分；
性能评估：采用一致性相关系数（CCC）、平均绝对误差（MAE）和受试者工作特征曲线下面积（AUROC）等指标。

研究结果

模型整体性能
盲测集中，模型CCC达0.54，MAE为4.06（低于PHQ-8分类阈值5分），AUROC在四个临床分界点（5/10/15/20）均值为0.81，敏感性与特异性平衡点（EER）为0.73。
跨亚组稳定性
模型在年龄（≤39/40-64/≥65岁）、性别、社会脆弱性指数（SVI 1-4级）及BH/非BH场景中表现一致（AUROC 0.79-0.85）。值得注意的是，≥65岁组CCC达0.61，提示对老年人群（常伴躯体化症状）检测优势。
应答偏差校正价值
在3.1%（42/1336）的病例中，模型预测与PHQ-8评分差异≥2个等级。独立临床医师盲评支持模型结果的概率是支持PHQ-8的2倍，表明语音分析可能减少主观量表的高报/低报误差。

结论与展望
该研究首次证实了融合声学-语义的ML模型在真实临床场景中检测抑郁严重程度的有效性，其性能超越传统量表（PHQ-8）的测量误差范围（MAE<5分）。尤其值得关注的是：

临床效率提升：自动化分析可节省20%的通话时间，用于治疗性沟通；
精准医疗潜力：跨亚组稳定性支持个性化干预，如对老年或高SVI人群的早期筛查；
技术整合方向：未来可嵌入电子病历或 telehealth 平台，但需解决单声道录音的说话人分离（diarization）误差（当前约3%）。

论文发表于《JMIR AI》，为数字表型技术从概念验证（proof-of-concept）向临床实践转化提供了里程碑式证据。后续研究需扩大非BH场景样本（当前n=110），并纳入种族/ ethnicity 多样性分析以完善算法公平性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号