基于大语言模型的句子完成测试在抑郁症筛查中的有效性研究:来自泰国373例样本的实证分析

【字体: 时间:2025年08月24日 来源:Addictive Behaviors 3.6

编辑推荐:

  本研究针对传统抑郁症筛查工具(如PHQ-9)存在的主观偏差问题,创新性地结合句子完成测试(SCT)与四种泰国兼容大语言模型(LLaMA3.1-8B/Gemma2-9B/Qwen2-7B/Typhoon1.5-7B),通过随机森林算法分析373名20-40岁受试者在家庭、社会、健康及自我概念四个维度的语言特征。结果显示健康(r=0.48)、自我概念(r=0.49)和正负情绪差(DIFF,r=0.54)是抑郁症最强预测因子,模型敏感度达82%,为抑郁症早期筛查提供了客观、可解释的AI辅助方案。

  

在全球心理健康危机加剧的背景下,抑郁症筛查面临两大痛点:传统量表如患者健康问卷(PHQ-9)易受社会期望效应干扰,而新兴的社交媒体文本分析又缺乏临床验证。泰国在COVID-19期间自杀率激增20%,凸显本土化筛查工具的紧迫性。更棘手的是,现有投射测验(如句子完成测试SCT)虽能捕捉潜意识情绪,却严重依赖评估者主观判断——这正是Peerachet Porkaew团队选择将SCT与大语言模型(LLM)联姻的突破口。

研究团队设计了一项精巧的四步实验:首先开发34项泰语SCT量表,覆盖家庭、社会、健康及自我概念四大领域;随后采用分层抽样招募373名20-40岁受试者(含34.8%健康人群和65.2%抑郁患者);接着用LLaMA3.1等四种LLM进行零样本情感评分;最终通过随机森林与决策树对比,发现健康领域情感值(r=0.48)和自我概念评分(r=0.49)的预测力远超传统关注的家庭因素(r=0.19)。特别值得注意的是,团队创新的正负情绪差指标(DIFF)展现出最强相关性(r=0.54),这为抑郁症的"认知三联征"理论提供了新证据。

关键技术方法

研究采用泰国国家电子与计算机技术中心开发的泰语适配LLM架构,包括LLaMA3.1-8B、Gemma2-9B等。通过Ollama平台执行零样本提示,温度参数设为0.3确保稳定性。使用5折交叉验证优化随机森林模型,并创新性引入VN(极负面计数)和DIFF(正负情绪差)特征。样本来自曼谷及周边地区,经PHQ-9分层确认抑郁严重程度。

研究结果

  1. 1.

    模型性能对比

    随机森林在六特征组合下准确率达77.68%(Qwen2),显著优于决策树。Gemma2特异性最高(87.18%),而LLaMA3.1在精选四特征(健康+自我概念+VN+DIFF)时敏感度达79.41%。

  2. 2.

    关键预测因子

    健康领域的情感波动最能反映抑郁风险——重度抑郁组中位评分仅2.8(健康组6.5)。自我概念评分呈现类似趋势,但社会关系评分在不同组别间重叠度较高,支持认知理论中"自我否定"的核心地位。

  3. 3.

    双阈值分类系统

    基于Pearson系数构建的最终评分(FS)公式:FS=0.48H+0.49E-0.31VN+0.54DIFF,通过5.82分阈值区分高低风险组,在测试集实现82%敏感度。

结论与展望

这项研究首次实证了LLM在非拉丁语系抑郁症筛查中的临床价值,其创新点在于:① 将SCT的投射特性与LLM的客观分析结合;② 发现DIFF指标比单一维度更具预测力;③ 开发出可解释的泰语筛查框架。局限性包括样本方言单一性和LLM的文化偏差风险。未来研究可探索多模态数据融合,正如作者强调:"这不是要取代临床判断,而是为泰国数字健康战略提供可扩展的筛查工具"。论文发表在《Addictive Behaviors》的伦理意义同样深远——当AI开始解析人类潜意识,我们既需要技术精度,更要守护数据隐私与文化敏感性这条红线。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号