
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GPT在抑郁症状预测中的局限性:传统问卷仍优于人工智能语言模型
【字体: 大 中 小 】 时间:2025年06月06日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对AI在心理健康评估中的应用瓶颈,通过对比GPT-4与认知风格问卷(CSQ)对930名大学生抑郁症状的预测效能,发现仅2/30的GPT提示能生成有效预测指标,且效果不及传统问卷。研究证实认知脆弱性(指个体对负性事件的解释方式)的测量依赖于对信念可变性(perceived changeability)的评估,而GPT难以从语言表述中捕捉这一关键维度。该成果为抑郁症风险评估工具的优化提供了重要实证依据,发表于《Scientific Reports》。
抑郁风险评估的新挑战:当人工智能遇上认知心理学
在全球超过3亿抑郁症患者的背景下,准确识别高风险个体始终是心理健康领域的核心挑战。传统认知理论认为,个体对负性事件的解释方式(即认知脆弱性)是抑郁发展的重要预测因子,其中阿布拉姆森(L.Y. Abramson)提出的无望理论强调稳定(stable)和全局(global)的归因方式尤为关键。尽管基于问卷的认知风格问卷(CSQ)已被广泛验证,但人工智能(AI)技术的快速发展带来了新的可能性——能否通过大型语言模型(GPT)分析受试者的语言特征,实现更高效、更精准的风险预测?
美国圣母大学心理学系的Jane K. Stallman和Gerald J. Haeffel教授团队在《Scientific Reports》发表的研究给出了否定答案。这项涉及930名大学生的纵向研究发现:GPT-4在30种提示方案中仅有2种能生成具有统计显著性的预测指标,且其预测效力始终不及传统的纸笔问卷。更关键的是,研究揭示了当前AI技术的根本局限——它无法像人类那样理解"信念可变性"(指个体认为负性事件原因可改变的程度)这一核心认知特征。
方法学创新与严谨设计
研究整合了6项纵向研究数据,采用标准化测量工具:认知风格问卷(CSQ)评估认知脆弱性(要求受试者对12个假设负性事件进行归因解释并评分),贝克抑郁量表(BDI)测量症状变化。通过OpenAI API接入GPT-4模型,设计30种提示方案系统测试其预测能力,包括:直接评分(1-7分)、高低风险分类(0/1)、理论指导下的精细提示等。统计采用控制基线症状的分层回归分析,重点关注△R2
增量解释量。
颠覆性发现与理论突破

范式转变的意义
该研究挑战了"AI必然优于传统测量"的假设,指出:
这些发现为抑郁症的早期识别提供了重要方法论指导,同时为AI在心理测量中的应用划定了合理边界。未来研究需在临床样本、多样化人群和其他LLM模型(如Claude、Gemini)中验证这些结论,并探索多模态数据整合的新路径。
生物通微信公众号
知名企业招聘