
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型与文本嵌入技术在患者叙事中检测抑郁和自杀风险的跨学科研究
【字体: 大 中 小 】 时间:2025年05月24日 来源:JAMA Network Open 10.5
编辑推荐:
这篇研究通过交叉实验验证了大型语言模型(LLMs)和文本嵌入模型在精神病患者句子完成测试(SCT)叙事中检测临床显著抑郁和自杀风险的有效性。结果显示,基于自我概念叙事的模型表现最优(AUROC>0.7),提示非领域特异性AI工具在心理健康筛查中的潜力,但需进一步解决性能优化与伦理问题。
方法与数据
研究采用首尔市立大学Boramae医疗中心2016-2022年间1064名18-39岁精神病患者的SCT数据(52,627条完成反应),排除IQ<70者。通过GPT-4o(LLM1)、Gemini-1.0-pro(LLM2)等模型进行零样本/少样本学习,结合text-embedding-3-large等嵌入模型训练XGBoost(XGB)和神经网络(NN)。
关键发现
自我概念叙事展现最强预测力:LLM1零样本检测抑郁的AUROC达0.720,少样本提升至0.754;嵌入模型+XGB组合表现最优(抑郁AUROC 0.841)。自杀风险检测更具挑战性,最佳模型AUROC为0.731。定性分析揭示防御性应答会降低模型灵敏度。
机制探讨
结果印证贝克认知三联征理论——抑郁患者的自我否定叙事(如"我一无是处")成为模型识别关键。相较家庭/性别认知叙事,自我概念条目更直接反映负面认知模式,这与传统心理学评估逻辑高度吻合。
应用前景
研究证实通用LLMs无需领域预训练即可解析心理特征,为低成本筛查提供可能。但案例显示,约15%防御性应答者存在漏检,强调需结合临床访谈。韩国SCT数据的成功应用,突显非英语语境下AI模型的跨文化适应性。
局限与展望
样本局限于专科医院,自评量表非金标准。未来需探索可解释AI(XAI)解析决策路径,并解决临床部署中的隐私问题。研究者建议将SCT与PHQ-9等量表组合使用,构建多模态筛查系统。
(注:全文严格基于原文数据,专业术语如AUROC、XGBoost等均按原文格式呈现,未添加未提及的机制或结论)
生物通微信公众号
知名企业招聘