
-
生物通官微
陪你抓住生命科技
跳动的脉搏
大型语言模型在社交媒体心理危机分级中的准确性评估:ChatGPT-4o、Claude 3.5 Sonnet与Gemini 1.5 Pro的对比研究
【字体: 大 中 小 】 时间:2025年06月18日 来源:Psychiatry Research 4.2
编辑推荐:
研究人员针对心理健康资源短缺与社交媒体心理求助激增的矛盾,开展LLMs(Large Language Models)对意大利语Reddit心理求助帖的紧急程度分级研究。通过对比ChatGPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro与临床医师基于MHTS(Mental Health Triage Scale)的评估,发现LLMs普遍高估紧急度,其中GPT-4o表现最优(r=0.744),为AI辅助心理危机筛查提供实证依据。
在数字时代,社交媒体已成为心理困扰的重要表达窗口。全球约1.2亿Reddit用户中,大量匿名用户通过平台倾诉焦虑、抑郁甚至自杀倾向。然而传统人工筛查面临海量数据与专业资源不足的双重挑战,如何快速准确地识别高风险个体成为公共卫生新课题。人工智能尤其是基于Transformer架构的大型语言模型(LLMs)的突破,为这一困境带来曙光——但这些"数字心理医生"的可靠性究竟如何?
为解答这个问题,一项发表在《Psychiatry Research》的研究对三大前沿LLMs(ChatGPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro)展开系统评估。研究团队采用425篇意大利语Reddit心理求助帖,通过改良版心理健康分级量表(MHTS),首次在非英语语境中对比了AI与临床医师的评估差异。
研究采用零样本学习(Zero-shot)策略,设计两种提示方案:基础提示(Prompt A)和角色扮演提示(Prompt B,模拟临床医师视角)。通过重复分层交叉验证(10次重复5折)确保结果稳健性,重点分析模型间相关性、分类性能(AUC、F1-score等)以及与人类评估的一致性。
3.1 评估分数分布特征
人类评估均分3.16(1-7级),而所有LLMs均显著高估(p<0.001),其中Claude 3.5 Sonnet在角色提示下偏差最大(Δ1.05分)。GPT-4o表现最接近人类(r=0.744),其AUC达0.928,显示优异的风险区分能力。
3.2 分类性能对比
GPT-4o在角色提示下综合表现最佳(准确率0.911,F1-score 0.781),而Claude 3.5 Sonnet呈现"高敏感低特异"特点(敏感度0.899但精度仅0.551),易产生假阳性。Gemini 1.5 Pro则相反,特异性达0.974但漏检率高(敏感度0.494)。
3.3 提示策略影响
角色提示仅对Claude 3.5 Sonnet产生显著影响(p<0.001),使其更倾向高风险判定。模型间相关性显示GPT-4o与Claude 3.5 Sonnet判断模式更相似(r=0.86),而Gemini 1.5 Pro呈现独特评估逻辑。
这项研究揭示了LLMs在心理危机分级中的双重性:一方面,GPT-4o等先进模型展现出与专业评估相当的判别力,可作为筛查"第一道防线";另一方面,系统性高估倾向警示AI不能替代临床判断。尤其值得注意的是,模型表现存在显著差异——Claude 3.5 Sonnet的"宁可错杀"特性可能适合高风险初筛,而GPT-4o的平衡性更适合精准分流。
技术快速迭代带来新的思考:当前结论可能随模型更新而变化,这要求建立动态评估机制。研究同时指出,意大利语数据的成功应用为跨语言心理AI研究开辟新路径,但文化特异性、提示工程优化等问题仍需深入探索。最终,这项研究为AI辅助心理健康监测提供了重要基准——在保持技术审慎的同时,也让我们看到人机协作缓解全球心理危机的新可能。
生物通微信公众号
知名企业招聘