生成式AI辅助精神健康临床访谈:基于DSM-5标准的诊断准确性与用户体验评估
《Scientific Reports》:Generative AI-assisted clinical interviewing of mental health
【字体:
大
中
小
】
时间:2025年10月30日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对传统精神健康评估方法(如临床访谈和自评量表)存在的成本高、标准化不足及资源可及性差等问题,开发了一种基于大语言模型(LLM)的AI辅助临床访谈系统(TalkToAlba)。研究通过对比303名自报临床诊断患者与健康对照组的评估结果,发现AI访谈在诊断重度抑郁障碍(MDD)、广泛性焦虑障碍(GAD)等9种常见精神障碍时,其科恩卡帕值(Cohen’s Kappa)、敏感性和特异性均优于或等效于传统量表,且诊断类别间共依赖性显著降低。此外,参与者对AI访谈的共情性、支持性给予高度评价。该研究为AI驱动的精神健康评估工具提供了标准化、可扩展的解决方案,对弥补临床资源缺口具有重要意义。
精神健康诊断的准确性与可及性一直是全球公共卫生领域的核心挑战。目前,临床访谈和自评量表虽是主流评估手段,但前者依赖医师经验且成本高昂,后者易受应答偏倚影响,均难以实现标准化和规模化应用。尤其在全球精神卫生专业人才短缺的背景下,开发高效、低门槛的替代工具迫在眉睫。近年来,大语言模型(LLM)在自然语言处理(NLP)领域的突破为这一难题提供了新思路:通过模拟临床医患对话,AI系统或能兼顾诊断严谨性与用户体验,成为传统方法的有效补充。
为此,瑞典隆德大学Sverker Sikstr?m团队联合多国学者,在《Scientific Reports》发表研究,探讨了生成式AI辅助临床访谈在精神健康评估中的可行性。研究基于TalkToAlba平台构建AI访谈系统,以GPT-4架构为核心,通过三阶段对话(假设生成、DSM-5标准验证、诊断评估)对9类常见精神障碍(如MDD、GAD、PTSD等)进行筛查,并与PHQ-9、GAD-7等标准化量表进行对比。
研究招募303名通过在线平台Prolific招募的参与者(含248名自报 clinician-diagnosed 患者及55名健康对照),利用未经微调的GPT-4 Turbo模型(温度参数0.1)进行结构化访谈。访谈内容由另一独立AI系统基于DSM-5标准分析,生成诊断概率与依据。用户体验通过量化评分(共情、相关性等)和关键词反馈(如“理解”“支持性”)评估。
AI访谈(GPT)与自报临床诊断(Diag)的科恩卡帕值在多数障碍中优于或等效于量表(RS),例如MDD(GPT: 0.73 vs. RS: 0.69)、OCD(GPT: 0.81 vs. RS: 0.75)。仅在进食障碍(ED)中量表略优,但经Bonferroni校正后无显著差异。
AI访谈在MDD、OCD、ASD等障碍中表现出更高敏感性(如MDD: GPT 0.85 vs. RS 0.82),且特异性普遍优于量表(如PTSD: GPT 0.91 vs. RS 0.87),表明其能更准确识别真阳性与真阴性病例。
量表间相关性(如PHQ-9与GAD-7的 r=0.79)显著高于实际自报诊断共病率(r=0.44),而AI评估间相关性均值为0.25,显著低于量表(0.43),说明AI能更好区分症状重叠的疾病实体,减少人工量表常见的“伪共病”偏差。
57%-72%的参与者认为AI访谈“非常”或“极度”共情、相关、理解与支持。关键词云图显示,“理解”“有帮助”“关怀”等正向词汇高频出现,反映AI对话的“以人为中心”特质。
本研究证实,基于LLM的AI临床访谈在诊断精度上可媲美传统量表,且在降低共依赖性和提升用户体验方面展现优势。其标准化流程与低成本特性尤为适合资源有限场景的初步筛查或辅助分诊。然而,研究依赖自报诊断作为金标准,且未整合多模态数据(如语音、表情),未来需通过前瞻性临床实验进一步验证。随着提示工程(prompt engineering)与伦理规范的完善,生成式AI有望成为精神健康评估体系中高效、可及且人性化的重要一环。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号