基于大语言模型的句子完成测试在抑郁症筛查中的有效性研究：来自泰国373例样本的实证分析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月24日 来源：Addictive Behaviors 3.6

编辑推荐：

　　本研究针对传统抑郁症筛查工具（如PHQ-9）存在的主观偏差问题，创新性地结合句子完成测试（SCT）与四种泰国兼容大语言模型（LLaMA3.1-8B/Gemma2-9B/Qwen2-7B/Typhoon1.5-7B），通过随机森林算法分析373名20-40岁受试者在家庭、社会、健康及自我概念四个维度的语言特征。结果显示健康（r=0.48）、自我概念（r=0.49）和正负情绪差（DIFF，r=0.54）是抑郁症最强预测因子，模型敏感度达82%，为抑郁症早期筛查提供了客观、可解释的AI辅助方案。

在全球心理健康危机加剧的背景下，抑郁症筛查面临两大痛点：传统量表如患者健康问卷(PHQ-9)易受社会期望效应干扰，而新兴的社交媒体文本分析又缺乏临床验证。泰国在COVID-19期间自杀率激增20%，凸显本土化筛查工具的紧迫性。更棘手的是，现有投射测验（如句子完成测试SCT）虽能捕捉潜意识情绪，却严重依赖评估者主观判断——这正是Peerachet Porkaew团队选择将SCT与大语言模型(LLM)联姻的突破口。

研究团队设计了一项精巧的四步实验：首先开发34项泰语SCT量表，覆盖家庭、社会、健康及自我概念四大领域；随后采用分层抽样招募373名20-40岁受试者（含34.8%健康人群和65.2%抑郁患者）；接着用LLaMA3.1等四种LLM进行零样本情感评分；最终通过随机森林与决策树对比，发现健康领域情感值（r=0.48）和自我概念评分（r=0.49）的预测力远超传统关注的家庭因素（r=0.19）。特别值得注意的是，团队创新的正负情绪差指标(DIFF)展现出最强相关性（r=0.54），这为抑郁症的"认知三联征"理论提供了新证据。

关键技术方法

研究采用泰国国家电子与计算机技术中心开发的泰语适配LLM架构，包括LLaMA3.1-8B、Gemma2-9B等。通过Ollama平台执行零样本提示，温度参数设为0.3确保稳定性。使用5折交叉验证优化随机森林模型，并创新性引入VN（极负面计数）和DIFF（正负情绪差）特征。样本来自曼谷及周边地区，经PHQ-9分层确认抑郁严重程度。

研究结果

1.
模型性能对比
随机森林在六特征组合下准确率达77.68%（Qwen2），显著优于决策树。Gemma2特异性最高（87.18%），而LLaMA3.1在精选四特征（健康+自我概念+VN+DIFF）时敏感度达79.41%。
2.
关键预测因子
健康领域的情感波动最能反映抑郁风险——重度抑郁组中位评分仅2.8（健康组6.5）。自我概念评分呈现类似趋势，但社会关系评分在不同组别间重叠度较高，支持认知理论中"自我否定"的核心地位。
3.
双阈值分类系统
基于Pearson系数构建的最终评分(FS)公式：FS=0.48H+0.49E-0.31VN+0.54DIFF，通过5.82分阈值区分高低风险组，在测试集实现82%敏感度。

结论与展望

这项研究首次实证了LLM在非拉丁语系抑郁症筛查中的临床价值，其创新点在于：① 将SCT的投射特性与LLM的客观分析结合；② 发现DIFF指标比单一维度更具预测力；③ 开发出可解释的泰语筛查框架。局限性包括样本方言单一性和LLM的文化偏差风险。未来研究可探索多模态数据融合，正如作者强调："这不是要取代临床判断，而是为泰国数字健康战略提供可扩展的筛查工具"。论文发表在《Addictive Behaviors》的伦理意义同样深远——当AI开始解析人类潜意识，我们既需要技术精度，更要守护数据隐私与文化敏感性这条红线。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号