基于语音流畅性自动解释的精神分裂症诊断新方法:结合ASR与LLM的可解释机器学习框架
《Scientific Reports》:Automated speech-fluency explanations for schizophrenia diagnosis
【字体:
大
中
小
】
时间:2025年12月23日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对精神分裂症诊断缺乏客观生物学标志物的临床难题,开发了一套基于言语流畅性测试(VFT)的自动化诊断管道。研究人员整合自动语音识别(ASR)、大语言模型(LLM)和可解释机器学习技术,对126名斯洛文尼亚语参与者的语音数据进行分析。最佳模型EBM达到AUC=0.90的鉴别性能,首次实现了从语音特征到临床决策的透明化解释,为精神分裂症的客观评估提供了新范式。
在精神卫生领域,精神分裂症作为一种严重的精神疾病,其诊断至今仍主要依赖临床医生的主观评估。尽管《精神疾病诊断与统计手册》第五版(DSM-5)和国际疾病分类第十一版(ICD-11)提供了标准化的诊断框架,但这些评估方法存在耗时较长、一致性不足的问题,且严重依赖于医生的临床经验。随着全球约0.29%的人口受此疾病影响,开发客观、可量化的诊断工具已成为精神医学领域的迫切需求。
言语流畅性测试(Verbal Fluency Test, VFT)作为神经心理学评估的常用工具,能够有效反映个体的语言产生、语义记忆和执行功能。在精神分裂症患者中,典型的言语障碍表现为思维紊乱、语无伦次、新语症(neologisms)和侵入性错误(intrusions)等。传统上,对这些语言特征的分析需要专业人员手动转录和标注,过程繁琐且容易引入主观偏差。虽然近年来有研究尝试利用计算分析方法自动化这一过程,但多数系统存在"黑箱"问题——即缺乏对决策过程的透明解释,限制了其在临床实践中的应用。
针对这一挑战,来自卢布尔雅那大学的研究团队在《Scientific Reports》上发表了创新性研究成果。他们开发了一套全新的自动化管道,能够从语音录音中提取具有临床意义的特征,并通过可解释的机器学习模型提供诊断决策支持。该研究的创新之处在于,它不仅是首个针对斯洛文尼亚语的精神分裂症自动化检测系统,更重要的是实现了从特征提取到分类决策的全程可解释性。
研究团队采用了多阶段技术路线:首先使用三种自动语音识别(ASR)系统(Truebar、Whisper和Soniox)对语音进行转录,并通过比较词准确率(Word Accuracy, WAcc)选择最优模型;接着利用大语言模型(LLM)对转录文本进行语义增强和特征标注;然后从语音信号中提取56个言语和非言语特征,包括时间动态特征、语义特征和语音声学特征;最后训练多种机器学习模型进行分类,并重点分析了可解释提升机(Explainable Boosting Machine, EBM)的决策逻辑。
研究对象为126名斯洛文尼亚语成年人,包括58名临床确诊的精神分裂症患者和68名健康对照。所有参与者完成了两种言语流畅性任务:语音任务(在一分钟内说出尽可能多的以字母"L"开头的单词)和语义任务(在一分钟内说出尽可能多的动物名称)。录音在受控环境下进行,并经过动态范围压缩和响度标准化预处理。
在ASR性能评估中,斯洛文尼亚语专用模型Truebar表现最优,在健康对照组和患者组中的词准确率分别为75%和52%。值得注意的是,所有ASR模型在患者语音上的识别准确率均显著较低,这种识别差异本身成为了有价值的诊断信息。通过LLM进行后处理,系统能够自动识别侵入错误、新语症等病理语言特征。
特征分析揭示了最具鉴别力的指标:在语义任务中的短语产生速率(V1)是区分能力最强的特征,健康对照组的产生速率(0.36短语/秒)显著高于患者组(0.19短语/秒)。最长的停顿时间(V3)也显示出显著组间差异,患者组的最大停顿占任务时间的44%,而对照组仅为20%。这些时间动态特征与语音的基频(F0)变化等声学特征共同构成了多维鉴别体系。
机器学习模型比较表明,结合言语和非言语特征的模型性能最优。EBM在联合特征集上达到了0.90的AUC值和0.82的分类准确率,性能与使用手动转录数据的基准模型相当甚至更优。重要的是,EBM模型提供了全局和局部两个层面的解释能力:全局层面可以量化每个特征对分类的总体重要性,局部层面则能展示特定个体的决策依据。
全局特征重要性分析显示,最重要的预测特征包括语义任务中的最长停顿时间(V3)、过滤与调整转录间的莱文斯坦相似度(V39)以及连续词语义相似度的峰度(V26)等。这些特征与精神分裂症的语言障碍理论高度一致,验证了模型的可解释性。
在局部解释方面,研究展示了三个典型案例:一名健康个体(预测精神分裂症概率0.04)、一名有轻度思维紊乱特征的患者(预测概率0.30)和一名有重度思维紊乱特征的患者(预测概率0.91)。通过可视化各特征对预测的贡献方向(增加或降低患病概率)和幅度,临床医生可以理解每个决策背后的具体语言行为依据。
与单纯依赖手动转录的基准相比,自动化流程的性能优势表明,ASR转录过程中的"错误"本身携带了诊断信息——患者语音中的不规则性和非典型性会导致更多的ASR错误,这些错误通过特征工程被量化并转化为预测信号。这一发现为利用自动化流程中的"噪声"作为生物标志物提供了新思路。
研究的临床意义在于,它将神经心理学测试与先进的计算分析相结合,提供了一种客观、可扩展的评估工具。由于言语流畅性测试已是常规神经心理评估的一部分,该管道可以较容易地整合到现有临床工作流程中,用于筛查、疾病监测和治疗反应评估。系统的可解释性设计也符合临床决策对透明度和问责制的要求。
当然,研究也存在一定局限性。样本规模相对有限,需要在更大、更多样化的群体中进行验证。此外,模型区分精神分裂症与其他精神疾病(如双相情感障碍、重度抑郁症)的特异性尚未评估,这是未来研究的重要方向。录音环境的组间差异也可能引入混淆因素,需要在更标准化的条件下进行验证。
从技术角度看,该方法原则上具有语言无关性,只要目标语言存在可靠的ASR和LLM资源,就应能实现类似性能。这为跨文化和跨语言验证奠定了基础,对全球精神健康评估工具的开发具有重要意义。
这项研究代表了计算精神病学领域的重要进展,它成功地将现代人工智能技术与临床需求相结合,在保持高性能的同时实现了决策透明化。随着进一步验证和优化,这种自动化、可解释的框架有望成为精神科医生的有力辅助工具,推动精神疾病诊断向更客观、精准的方向发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号