大型语言模型(LLM)平台在骨科临床即时参考中的应用价值比较研究

【字体: 时间:2025年06月12日 来源:Indian Journal of Orthopaedics 1.1

编辑推荐:

  为解决骨科临床即时参考(OTG)中人工智能(AI)工具的可靠性问题,研究人员对比了ChatGPT-4、Bing Chat和Google Bard三大LLM平台的回答质量。结果显示:三者在答案相关性上无显著差异(p=0.110),但Bing Chat引用的证据等级(LOE)最优(p<0.001)。该研究为AI辅助临床决策提供了实证依据,建议需针对医学领域进行定制化改进。

  

在骨科临床的争分夺秒中,即时参考(On-the-go, OTG)如同手术刀般精准的决策支持工具至关重要。随着人工智能(AI)浪潮席卷医疗领域,大型语言模型(Large Language Model, LLM)平台正悄然改变着医生们查阅教科书和期刊的传统模式。

这项研究将250个骨科临床问题同时抛给三大AI选手:ChatGPT Version 4(GPT-4)、微软Bing Chat和谷歌Bard,让它们与人类专家的标准答案同台竞技。有趣的是,三大模型在答案相关性方面打成平手(p=0.110),但GPT-4在数值类问题上展现出显著优势(p=0.006)。当显微镜对准证据等级(Level of Evidence, LOE)时,Bing Chat意外逆袭——其引用文献的质量仅次于人类专家(p<0.001),形成Bing>GPT-4>Bard的排名格局。

这些数字大脑虽然尚未达到完美,但已展现出令人惊喜的临床辅助潜力。就像骨科手术需要精准的导航系统,未来LLM平台也需要经过医学领域的特殊"矫形手术"——包括专业定制和监管政策调整,才能真正成为白大褂口袋里值得信赖的智能参考书。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号