大型语言模型对常见抑郁相关问题的响应能力:ChatGPT-4.0、DeepSeek、Google Gemini和Perplexity的对比分析
《Nursing Clinics of North America》:How large language model responds to common depression questions: A comparative analysis of ChatGPT-4.0, DeepSeek, Google Gemini and Perplexity
【字体:
大
中
小
】
时间:2025年12月11日
来源:Nursing Clinics of North America 1.7
编辑推荐:
抑郁症相关大语言模型(LLMs)的准确性、全面性与可读性评估。通过35个抑郁主题问题测试ChatGPT-4.0、DeepSeek、Google Gemini和Perplexity,结果显示DeepSeek和ChatGPT-4.0的准确性较高(4.62-4.67/5),Perplexity最低(4.04)。 comprehensiveness方面DeepSeek最优(73.3%),但可读性评分显示部分模型存在阅读障碍。研究表明LLMs在心理健康教育中具有辅助潜力,但需优化临床应用效果和患者接受度。
钱友|罗玉琴|陈增利|宋小珍|王峰|文守琴|丁琴|陈娟
四川大学华西医院心理健康中心 / 四川大学华西护理学院,成都,中国
摘要
目的
评估四种广泛使用的大型语言模型(LLMs)——ChatGPT-4.0、DeepSeek、Google Gemini 和 Perplexity——在回答常见抑郁症相关问题时的准确性、全面性和可读性。
背景
随着患者越来越多地寻求数字工具获取健康信息,可靠的 LLM 可以在初级保健和心理健康教育中发挥支持作用。然而,它们在提供准确且易于理解的抑郁症相关问题回答方面的表现尚未得到充分研究。
方法
从七个权威网站收集了35个与抑郁症相关的问题(涵盖发病机制、风险因素、临床表现、诊断、预防、治疗、预后和护理等方面)。三位精神科护士以盲法方式独立评估每个 LLM 的回答,重点关注准确性和全面性。使用 R 软件分析可读性(Flesch-Kincaid 评分等级、Gunning Fog 指数和 Flesch 阅读难度得分)。
结果
所有四种 LLM 的平均准确率都很高(ChatGPT-4.0 = 4.67,DeepSeek = 4.62,Google Gemini = 4.65,Perplexity = 4.04)。DeepSeek 提供了最高比例的非常全面的回答(73.3%),其次是 ChatGPT-4.0(44.8%)、Google Gemini(36.2%)和 Perplexity(6.7%)。可读性得分存在显著差异,DeepSeek 和 Google Gemini 的表现不如 ChatGPT-4.0(p 0.05)。
结论
LLM,特别是 DeepSeek,在初级保健和心理健康领域的抑郁症相关健康教育中显示出潜力作为辅助资源。然而,需要进一步研究来确认其临床效用,解决可读性挑战,并评估其对实际患者结果的影响。
引言
大型语言模型(LLMs)是基于深度学习架构构建的人工智能(AI)系统,通过在庞大的文本语料库上进行训练来理解、生成和处理人类语言(Spotnitz 等,2024)。像 ChatGPT 和 DeepSeek 这样的著名例子展示了该领域的快速进展(Zhao 等,2023;Wang 等,2025)。包括 Google Gemini 和 Perplexity 在内的专有和开源 LLM 的日益普及正在重塑 AI 研究,并对医学产生越来越大的影响。初步研究主要集中在评估 LLM 在处理与肝硬化、肝细胞癌(Yeo 等,2023)、糖尿病(Huang 等,2023)、春季角结膜炎(Rasmussen 等,2023)等常见疾病相关的基本查询方面的表现。然而,LLM 对医疗可及性和质量的更广泛影响,特别是在心理健康等专业领域,仍需进一步探索。
抑郁症是全球致残的主要原因之一,影响着超过3亿人,并给医疗系统带来了巨大负担(Shorey 等,2022)。尽管抑郁症状普遍存在,但由于社会污名和歧视,许多人推迟寻求治疗。正如《世界心理健康报告》所强调的,与心理健康相关的污名在各国普遍存在,尤其是在低收入和中等收入国家(世界卫生组织,2022)。此外,心理健康专业人员的短缺和分布不均进一步限制了获得适当护理的机会(Qin 和 Hsieh,2020)。根据世界卫生组织的数据,2019年全球约有703,000人死于自杀——每100例死亡中就有1例——并且每次自杀事件背后估计有超过20次自杀未遂(世界卫生组织,2022)。这些数字突显了早期发现、及时干预和传播有关抑郁症的准确信息的迫切需求。
在心理健康护理中,LLM 正在临床和教育领域得到探索,显示出补充医疗咨询和健康教育的潜力。当前研究表明,LLM 可以生成与健康相关的信息和个人化的医疗建议(Owens 等,2025;Armbruster 等,2024),LLM 可以作为患者指导和护理者支持的辅助工具(Sathe 等,2025)。例如,一项最近的系统评价报告称,由 LLM 促进的自我管理干预与抑郁和焦虑症状的减轻有关(Villarreal-Zegarra 等,2024)。在自杀意念的背景下,一个实验性的 LLM 驱动的聊天机器人提供了情感支持并模拟了治疗互动(Cui 等,2025)。在一项评估 LLM 对抑郁和自杀情景回答的评估研究中,LLM 的评分虽然与专家自杀学家高度相关,但倾向于高估适宜性(McBain 等,2025)。这些初步发现强调了 LLM 在改善获取支持性心理健康信息方面的潜力。
在这种背景下,LLM 的快速发展为提高不同环境中心理健康服务的覆盖范围和质量提供了有希望的途径(Levkovich,2025)。公众对数字健康资源的依赖日益增加,例如,95.6% 的美国受访者表示在线寻求健康信息(Mendel 等,2025),通常是为了获取药物相关信息(60.3%)、治疗选项(46.1%)或自我诊断(23.2%)(Yun 等,2025)。在大学生中,49.6% 使用在线工具获取心理健康信息,82% 认为这些信息有帮助(Hamza 等,2025)。这一趋势凸显了 LLM 在数字健康干预中的日益重要的用途(Lee 等,2023)。重要的是,LLM 可以帮助克服地理和语言障碍,扩大获得可靠医疗知识的途径。为了进一步研究这一潜力,我们的研究以抑郁症为案例进行研究。我们评估了几种公开可用的 LLM——包括 ChatGPT-4.0、DeepSeek、Google Gemini 和 Perplexity——在回答抑郁症相关问题时的表现,特别关注其输出的准确性、全面性和可读性,以便用于患者教育。
方法部分
由于本研究不涉及人类受试者,因此不需要伦理批准。然而,所有程序都严格遵循《赫尔辛基宣言》和当地伦理指南的原则进行。(补充材料1)(Malta 等,2010)指导了我们的研究。
准确性评估
数据通过 K-S 检验呈正态分布。Perplexity 的准确率得分显著低于其他三种 LLM。Perplexity 的平均准确率为 4.04(标准差 0.29),DeepSeek 为 4.62(标准差 0.25),ChatGPT-4.0 为 4.67(标准差 0.34),Google Gemini 为 4.65(标准差 0.28),效应量为 0.16,p 0.001。图 2A 显示了评估结果。在所有四种 LLM 中,被评为优秀的回答比例为 69.5%(95% CI [0.598, 0.781](ChatGPT-4.0)
讨论
在这项研究中,我们对 Deepseek、ChatGPT-4.0、Google Gemini 和 Perplexity 的表现进行了全面评估,重点关注它们在回答抑郁症相关查询方面的能力。为了提高评估的可靠性,我们采用了严格的研究设计并采用了盲法程序。我们的发现揭示了将 LLM 整合到心理健康护理中的机会和挑战的复杂情况。
结论
我们的研究发现,像 DeepSeek 这样的 LLM 在初级保健和心理健康环境中作为抑郁症相关健康教育的辅助工具具有潜力。然而,需要进一步的研究来确定它们的临床效用并评估它们对实际患者结果的影响。
CRediT 作者贡献声明
宋小珍:调查、正式分析。钱友:撰写——初稿、验证、方法论、概念化。陈增利:正式分析、数据管理。罗玉琴:撰写——初稿、概念化。陈娟:撰写——审阅与编辑、监督。丁琴:数据管理。文守琴:数据管理。王峰:调查、正式分析。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号