
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于大语言模型的句子完成测试在抑郁症筛查中的有效性研究:来自泰国373例样本的实证分析
【字体: 大 中 小 】 时间:2025年08月24日 来源:Addictive Behaviors 3.6
编辑推荐:
本研究针对传统抑郁症筛查工具(如PHQ-9)存在的主观偏差问题,创新性地结合句子完成测试(SCT)与四种泰国兼容大语言模型(LLaMA3.1-8B/Gemma2-9B/Qwen2-7B/Typhoon1.5-7B),通过随机森林算法分析373名20-40岁受试者在家庭、社会、健康及自我概念四个维度的语言特征。结果显示健康(r=0.48)、自我概念(r=0.49)和正负情绪差(DIFF,r=0.54)是抑郁症最强预测因子,模型敏感度达82%,为抑郁症早期筛查提供了客观、可解释的AI辅助方案。
在全球心理健康危机加剧的背景下,抑郁症筛查面临两大痛点:传统量表如患者健康问卷(PHQ-9)易受社会期望效应干扰,而新兴的社交媒体文本分析又缺乏临床验证。泰国在COVID-19期间自杀率激增20%,凸显本土化筛查工具的紧迫性。更棘手的是,现有投射测验(如句子完成测试SCT)虽能捕捉潜意识情绪,却严重依赖评估者主观判断——这正是Peerachet Porkaew团队选择将SCT与大语言模型(LLM)联姻的突破口。
研究团队设计了一项精巧的四步实验:首先开发34项泰语SCT量表,覆盖家庭、社会、健康及自我概念四大领域;随后采用分层抽样招募373名20-40岁受试者(含34.8%健康人群和65.2%抑郁患者);接着用LLaMA3.1等四种LLM进行零样本情感评分;最终通过随机森林与决策树对比,发现健康领域情感值(r=0.48)和自我概念评分(r=0.49)的预测力远超传统关注的家庭因素(r=0.19)。特别值得注意的是,团队创新的正负情绪差指标(DIFF)展现出最强相关性(r=0.54),这为抑郁症的"认知三联征"理论提供了新证据。
关键技术方法
研究采用泰国国家电子与计算机技术中心开发的泰语适配LLM架构,包括LLaMA3.1-8B、Gemma2-9B等。通过Ollama平台执行零样本提示,温度参数设为0.3确保稳定性。使用5折交叉验证优化随机森林模型,并创新性引入VN(极负面计数)和DIFF(正负情绪差)特征。样本来自曼谷及周边地区,经PHQ-9分层确认抑郁严重程度。
研究结果
模型性能对比
随机森林在六特征组合下准确率达77.68%(Qwen2),显著优于决策树。Gemma2特异性最高(87.18%),而LLaMA3.1在精选四特征(健康+自我概念+VN+DIFF)时敏感度达79.41%。
关键预测因子
健康领域的情感波动最能反映抑郁风险——重度抑郁组中位评分仅2.8(健康组6.5)。自我概念评分呈现类似趋势,但社会关系评分在不同组别间重叠度较高,支持认知理论中"自我否定"的核心地位。
双阈值分类系统
基于Pearson系数构建的最终评分(FS)公式:FS=0.48H+0.49E-0.31VN+0.54DIFF,通过5.82分阈值区分高低风险组,在测试集实现82%敏感度。
结论与展望
这项研究首次实证了LLM在非拉丁语系抑郁症筛查中的临床价值,其创新点在于:① 将SCT的投射特性与LLM的客观分析结合;② 发现DIFF指标比单一维度更具预测力;③ 开发出可解释的泰语筛查框架。局限性包括样本方言单一性和LLM的文化偏差风险。未来研究可探索多模态数据融合,正如作者强调:"这不是要取代临床判断,而是为泰国数字健康战略提供可扩展的筛查工具"。论文发表在《Addictive Behaviors》的伦理意义同样深远——当AI开始解析人类潜意识,我们既需要技术精度,更要守护数据隐私与文化敏感性这条红线。
生物通微信公众号
知名企业招聘