
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于语音频谱图的卷积神经网络分析:精神分裂症谱系障碍诊断与阴性症状评估的新方法
【字体: 大 中 小 】 时间:2025年07月10日 来源:NPP—Digital Psychiatry and Neuroscience
编辑推荐:
本研究针对精神分裂症谱系障碍(SSD)诊断和阴性症状评估的临床挑战,通过卷积神经网络(CNN)分析10秒语音片段的log-Mel频谱图,实现了87.8%的诊断准确率(AUC=0.86)和87.8%的情感迟钝(blunted affect)识别准确率。该无创、可扩展的技术为精神疾病客观生物标志物开发提供了新范式。
在精神疾病诊断领域,临床医生长期依赖主观观察评估患者症状,特别是精神分裂症谱系障碍(SSD)中阴性症状(如情感迟钝)的识别,存在评估可靠性低、量化困难等瓶颈。传统语音分析方法虽能提取音高、韵律等特征,但人工特征工程易丢失关键的时间动态信息——而这正是临床医生在面诊时最关注的诊断线索。
来自加拿大Western University等机构的研究团队另辟蹊径,将语音信号转化为包含时间-频率信息的"声学图像",通过深度学习直接捕捉诊断相关的声学模式。这项发表在《NPP—Digital Psychiatry and Neuroscience》的研究显示,仅需分析10秒的日常对话片段,改良ResNet-18模型就能以87.8%的准确率区分健康人与SSD患者,对核心阴性症状"情感迟钝"的识别准确率同样达到87.8%。这种保留原始声学时序特征的方法,为精神疾病客观评估提供了新思路。
研究团队采用三项关键技术:1)从319名参与者(227例SSD患者,92例健康对照)采集语音构建110,246个10秒频谱图样本;2)使用改进的ResNet-18架构进行诊断分类、阴性症状严重度(PANSS N1+N4+N6评分中位数分割)和情感迟钝(N1>3阈值)的三重任务训练;3)应用Grad-CAM可视化模型决策依据区域。所有分析严格执行参与者级别的训练集(70%)、验证集(15%)和测试集(15%)分割,避免数据泄漏。
主要发现
诊断分类性能优异
测试集显示模型区分SSD与健康对照的AUC达0.865,准确率87.83%。值得注意的是,模型对患者组的识别精确度更高(精确率0.9366 vs 健康组0.7446),提示其更擅长捕捉病理特征。
症状特异性识别
在179例临床评估患者中,模型对高/低阴性症状组分类准确率80.46%(AUC=0.733),而对情感迟钝(N1>3)的识别表现更优(准确率87.84%,AUC=0.786)。交叉验证实验证实,诊断模型不能预测症状严重度(AUC<0.51),反之亦然,说明模型学习了不同的声学特征模式。
决策机制可视化
Grad-CAM热图显示模型主要关注中频段语音信号,激活区域平均持续5-6秒,表明分类依据是完整短语而非孤立音素。这与临床评估逻辑一致——医生正是通过观察连续语句中的韵律变化判断症状。
研究意义
该工作突破了传统语音分析的局限:首先,直接利用原始频谱图避免了特征工程的主观性;其次,10秒片段的处理方式既保留了关键时序信息(如停顿、语调变化),又满足临床实时分析需求;最重要的是,模型对情感迟钝的特异性识别(与整体症状严重度分离)证实了技术捕捉细微临床症状的能力。
研究者特别指出,这种方法的临床转化潜力体现在三方面:1)可作为辅助诊断工具提高基层医疗的SSD识别率;2)通过持续监测语音变化实现症状复发的早期预警;3)为药物临床试验提供客观疗效指标。未来研究可扩展至多语言环境,并探索其他症状维度(如思维紊乱)的声学特征。
值得注意的是,团队采用严格的数据分割策略和异质性样本(包含从高危状态到慢性期的各类患者),使结果更具临床普适性。正如通讯作者Lena Palaniyappan强调的:"我们追求的不是最高准确率,而是证明在真实临床场景中,原始声学信号包含足够的信息支持诊断决策"。这项研究为数字精神医学开辟了新途径——通过解码"声音指纹"来洞察大脑状态。
生物通微信公众号
知名企业招聘