GPT在抑郁症状预测中的局限性：传统问卷仍优于人工智能语言模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月06日 来源：Scientific Reports 3.8

编辑推荐：

　　本研究针对AI在心理健康评估中的应用瓶颈，通过对比GPT-4与认知风格问卷(CSQ)对930名大学生抑郁症状的预测效能，发现仅2/30的GPT提示能生成有效预测指标，且效果不及传统问卷。研究证实认知脆弱性(指个体对负性事件的解释方式)的测量依赖于对信念可变性(perceived changeability)的评估，而GPT难以从语言表述中捕捉这一关键维度。该成果为抑郁症风险评估工具的优化提供了重要实证依据，发表于《Scientific Reports》。

抑郁风险评估的新挑战：当人工智能遇上认知心理学

在全球超过3亿抑郁症患者的背景下，准确识别高风险个体始终是心理健康领域的核心挑战。传统认知理论认为，个体对负性事件的解释方式（即认知脆弱性）是抑郁发展的重要预测因子，其中阿布拉姆森(L.Y. Abramson)提出的无望理论强调稳定(stable)和全局(global)的归因方式尤为关键。尽管基于问卷的认知风格问卷(CSQ)已被广泛验证，但人工智能(AI)技术的快速发展带来了新的可能性——能否通过大型语言模型(GPT)分析受试者的语言特征，实现更高效、更精准的风险预测？

美国圣母大学心理学系的Jane K. Stallman和Gerald J. Haeffel教授团队在《Scientific Reports》发表的研究给出了否定答案。这项涉及930名大学生的纵向研究发现：GPT-4在30种提示方案中仅有2种能生成具有统计显著性的预测指标，且其预测效力始终不及传统的纸笔问卷。更关键的是，研究揭示了当前AI技术的根本局限——它无法像人类那样理解"信念可变性"(指个体认为负性事件原因可改变的程度)这一核心认知特征。

方法学创新与严谨设计
研究整合了6项纵向研究数据，采用标准化测量工具：认知风格问卷(CSQ)评估认知脆弱性（要求受试者对12个假设负性事件进行归因解释并评分），贝克抑郁量表(BDI)测量症状变化。通过OpenAI API接入GPT-4模型，设计30种提示方案系统测试其预测能力，包括：直接评分(1-7分)、高低风险分类(0/1)、理论指导下的精细提示等。统计采用控制基线症状的分层回归分析，重点关注△R²
增量解释量。

颠覆性发现与理论突破

传统问卷的稳健性
CSQ评分成功预测了后续抑郁症状变化(b=0.62, p=0.003)，验证了认知脆弱性理论的预测效力。如图2所示，CSQ分数呈正态分布，说明测量工具具有良好的区分效度。

GPT的局限性表现

仅当提供理论指导（无望理论解释）或经过微调（使用前75名受试者BDI分数训练）时，GPT输出才具有预测性
最佳表现提示的增量解释量仅1%（与CSQ联合模型△R²
=0.01），且无法在独立样本中复现
定性分析发现，GPT能识别"自我否定"等语言特征（如高频使用"不够"、"未能"等词），但无法区分表面相似表述背后的信念差异

理论层面的关键发现
研究通过典型个案对比揭示：两位受试者对考试失利给出几乎相同的文字解释（"不够努力"），但CSQ评分差异显著（5.04 vs 2.46）。这证实抑郁风险取决于归因的稳定性/全局性维度（通过CSQ量表捕捉），而非语言表述的负面程度（GPT分析对象）。

范式转变的意义
该研究挑战了"AI必然优于传统测量"的假设，指出：

认知风险评估需要区分"初始负性思维"和"持续不变信念"，后者才是真正的风险标志
语言表述与内在认知建构可能存在"解码鸿沟"，当前LLM尚无法突破这一限制
在心理健康领域，AI更适合作为已有量化数据的优化工具（如整合BDI和CSQ分数），而非替代性评估手段

这些发现为抑郁症的早期识别提供了重要方法论指导，同时为AI在心理测量中的应用划定了合理边界。未来研究需在临床样本、多样化人群和其他LLM模型（如Claude、Gemini）中验证这些结论，并探索多模态数据整合的新路径。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号