评估大型语言模型在肾绞痛影像学推荐中的表现:Gemini、Copilot与ChatGPT-4.0的比较分析

【字体: 时间:2025年07月05日 来源:International Journal of Emergency Medicine 2

编辑推荐:

  为解决急诊科肾绞痛患者影像学选择标准不统一的问题,研究人员开展了一项比较研究,评估Gemini、Copilot和ChatGPT-4.0三大语言模型与多学科专家共识的匹配度。结果显示,Gemini在65.5%的案例中与多数专家意见一致,显著优于其他模型(41.4%),尤其在完美/优秀共识场景中表现更优(69.5% vs 43.4%)。该研究为AI辅助临床决策提供了实证依据,凸显了Gemini在复杂医疗场景中的应用潜力。

  

肾绞痛是急诊科的常见病症,但关于其影像学检查的选择标准长期存在争议。尽管指南推荐非增强CT(NCCT)作为确诊结石的金标准,但临床实践中存在过度使用CT而超声检查利用率不足的问题。美国急诊医师学会(ACEP)等机构发布的共识报告试图规范影像学选择,但执行效果不佳。在此背景下,Yavuz Yigit等研究者提出假设:基于海量数据训练的大型语言模型(LLMs)可能为这一临床难题提供标准化解决方案。

为验证这一假设,研究团队设计了一项横断面分析,选取29个涵盖不同年龄、性别、妊娠状态和结石可能性的临床案例,分别输入三大主流LLMs(Gemini、Copilot和ChatGPT-4.0),将其回答与9位专家组成的多学科小组共识进行比对。研究主要评估指标包括模型回答与多数专家意见的匹配率、在完美/优秀共识场景中的表现,以及与任何一位专家意见的一致性。

关键技术方法包括:1) 基于ACEP/ACR/AUA共识报告构建29个标准化临床情景;2) 采用单次提问方式向各LLMs询问影像学建议;3) 使用Fleiss' kappa统计量评估模型间一致性;4) 通过卡方检验比较不同模型性能差异。所有数据收集于2024年3-4月完成。

主要结果

共识匹配度比较
Gemini以65.5%的多数共识匹配率显著领先(Copilot和ChatGPT-4.0均为41.4%)。在专家评定为"完美"(9/9一致)或"优秀"(8/9一致)的案例中,Gemini的正确率高达69.5%,较另两个模型(43.4%)展现出统计学显著优势(p=0.045和p<0.001)。

个体专家一致性
当放宽至与任何一位专家意见相符时,Gemini保持82.7%的最高吻合率,而Copilot和ChatGPT-4.0分别为62.1%和65.5%。Fleiss' kappa值显示三者均与专家组存在实质性一致(0.698 vs 0.634-0.638)。

影像学推荐模式
Gemini更倾向于推荐低剂量CT(RDCT)(17/29案例),而Copilot偏爱床旁超声(POCUS)(13/29)。在明确无需影像的案例中,Gemini正确识别率达75%,显著高于其他模型。

讨论与意义
该研究首次系统评估了LLMs在肾绞痛影像学决策中的表现,揭示了Gemini在临床推理方面的突出能力。其优势可能源于:1) 更精准的指南解读算法;2) 对复杂变量(如妊娠状态)的加权处理;3) 避免ChatGPT-4.0过度推荐CT的倾向。值得注意的是,尽管Copilot基于ChatGPT-4.0架构,但因整合微软数据库而表现出差异化特征。

研究同时指出LLMs临床应用面临的挑战:1) 不同指南间的冲突(如NICE指南偏好低剂量CT);2) 决策过程缺乏透明度;3) 数据隐私合规要求(如HIPAA和KVKK)。作者建议未来研究应关注模型更新对性能的影响,并建立AI医疗责任的界定框架。

这项发表于《International Journal of Emergency Medicine》的成果为AI辅助急诊决策提供了重要循证依据。Gemini展现的临床适配性提示,经过定向优化的LLMs有望成为急诊医师的决策支持工具,但需通过持续验证和伦理规范确保其安全应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号