是什么促使医生在门诊实践中实施应对气候变化和热应激的适应措施?一项采用混合方法的研究

《Public Health》:What makes physicians implement climate change and heat adaptation measures in outpatient practices? A mixed-methods study

【字体: 时间:2025年11月17日 来源:Public Health 3.2

编辑推荐:

  多慢性条件(MCCs)临床任务中,OpenAI的ChatGPT-o1在准确性、全面性、清晰度和相关性四项指标上显著优于DeepSeek-R1,但后者在三轮评估中一致性更优。研究通过48个临床问题、双模型三轮响应及专家盲评(Fleiss' κ=0.878),揭示LLMs在复杂MCCs管理中的潜力与局限,建议加强模型可靠性和标准化评估。

  
曾海敏|刘冠卓|刘文军|邹思宇|陈博凡|杨如辉|林芳珍|彭杰|高远|梁浩
中国江西省南昌市南昌大学江西医学院第二附属医院骨科

摘要

目的

系统比较两种主流大型语言模型(LLMs)DeepSeek-R1和ChatGPT-o1在处理与多种慢性疾病(MCCs)相关的临床问题时的表现。

研究设计

比较评估研究。

方法

根据权威临床指南,设计了48个涉及不同难度级别的临床问题,并分别在三轮中提交给DeepSeek-R1和ChatGPT-o1进行回答。由五位临床医学和医学信息学专家组成的评审小组对288条去标识化的回答从四个维度(准确性、全面性、清晰度和相关性)进行盲评。使用Mann-Whitney U检验和Kruskal–Wallis H检验分析模型之间的统计差异。通过Fleiss’ kappa值评估评分者间的一致性。

结果

评分者间的一致性较高(Fleiss’ kappa = 0.878,P < 0.05)。虽然两个模型都避免了重大事实错误,但ChatGPT-o1在所有四个评估维度上的表现均显著优于DeepSeek-R1。然而,DeepSeek-R1在三轮回答中的内部一致性更高(Fleiss’ kappa = 0.635,P < 0.05)。

结论

ChatGPT-o1在处理与慢性疾病相关的临床任务时表现出更优的性能,尤其是在复杂病例中。尽管如此,两种模型仍可能产生错误信息,这突显了提高临床准确性和可解释性的必要性。本研究为LLMs在慢性疾病管理中的应用提供了实证证据,并强调了提高模型可靠性、标准化评估框架以及探索多模型集成以支持其在临床环境中的安全有效使用的重要性。

引言

多种慢性疾病(MCCs)指的是患者同时患有两种或更多种慢性疾病或长期健康问题,需要医疗管理,并可能导致日常活动受限。1 全球约有三分之一的成年人受到MCCs的影响,这带来了复杂的医疗需求、增加的意外医疗使用以及重大的流行病学、经济和个人负担。1, 2 Rank, M.A.、Shah, N.D.等人的研究表明,糖分饮料的广泛消费、肥胖以及哮喘等常见疾病都导致了MCCs患病率的上升。3, 4, 5 多药服用(通常定义为使用五种或更多种药物)在MCCs患者中很普遍,尤其是在老年人中。目前,缺乏针对老年MCCs患者的特定疾病治疗指南,从而增加了治疗期间发生不良药物事件的风险。6, 7 此外,MCCs还可能限制老年患者的社交互动和行动能力,导致跌倒和残疾。8, 9 近年来,自然语言处理(NLP)技术在医疗保健领域取得了显著进展,特别是在患者咨询和疾病管理方面。NLP的突破为人工智能(AI)处理MCCs管理的复杂性提供了有希望的途径。文本情感检测(TED)作为NLP的一个快速发展的子领域,已被证明可以在医患沟通中促进基本的情感认知,并在决策支持中发挥重要作用。10, 11 在糖尿病研究中,NLP应用迅速发展,越来越多的证据表明其有潜力提高护理质量并指导治疗策略。12 作为迄今为止最大的公开可用的高级AI语言模型,ChatGPT的深度学习能力在识别研究主题和协助医疗专业人员进行临床和实验室诊断方面展现了潜力。13 大型语言模型(LLMs)是经过大量文本数据训练的人工智能系统,能够生成类似人类的输出。14 2022年11月ChatGPT的发布引发了公众对LLMs的广泛关注,并促使许多创新模型的出现。15 尽管LLMs在慢性疾病管理方面取得了显著进展,但现有的训练数据集往往侧重于特定人群,可能忽略了MCCs的复杂性。16 此外,LLMs目前还无法可靠地诊断慢性疾病,这可能对患者健康构成潜在风险。17, 18, 19 目前,大多数LLMs都是专有模型,这在其本地适应性方面存在显著限制。此外,像ChatGPT-o1这样的专有模型具有较高的API成本,给全球患者和临床医生带来了使用障碍。20, 21 相比之下,作为低成本的开源LLM,DeepSeek可能有助于缓解这些问题。DeepSeek获得了持续的全球学术关注,多项研究强调了其在推理能力、成本效益和开源策略方面的突破。22, 23 尽管ChatGPT在医疗保健领域得到了广泛应用,但其在MCCs场景中的应用尚未得到系统验证。此外,关于ChatGPT和DeepSeek在医疗保健场景中的比较评估仍然很少。 据我们所知,这是首次全面评估开源模型DeepSeek-R1和专有模型ChatGPT-o1在MCCs相关临床任务中的表现差异的研究。通过比较它们在准确性、全面性、清晰度和一致性方面的表现,本研究旨在为LLMs在医疗保健中的应用提供新的见解,并为MCCs患者提供潜在的支持。

伦理问题

本研究使用了两个公开可用的LLMs,因此不需要机构审查委员会的批准。此外,由于研究不涉及人类或动物参与者,因此不存在伦理问题。

问题库构建

根据世界卫生组织和美国糖尿病协会等机构的权威指南,以及《柳叶刀呼吸医学》等高影响力期刊的内容,共设计了48个关于MCCs的临床问题。

结果

DeepSeek-R1和ChatGPT-o1模型分别对这48个问题进行了三轮回答,总共生成了288条回答(详细回答见补充材料3-5)。四个评估维度的具体得分见补充材料2。图2直观地比较了DeepSeek-R1和ChatGPT-o1在三轮回答中的得分。

讨论

本研究系统评估了DeepSeek-R1和ChatGPT-o1在处理与MCCs相关问题时的表现差异。通过全面评估准确性、全面性、清晰度和相关性四个关键维度,这项分析突出了这两种LLMs在处理MCCs相关临床查询时的能力和局限性。 在稳健性方面,DeepSeek-R1的表现优于ChatGPT-o1。

伦理批准

不适用。

资金支持

本研究得到了“全国大学生创新创业培训计划”(资助编号202410403067)和“江西省大学生创新创业培训计划”(资助编号S202410403035)的支持。

利益冲突

作者声明没有利益冲突。

数据可用性

本研究生成、使用和/或分析的数据集可在补充材料中获取,或根据合理请求向通讯作者索取。

作者贡献

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号