ChatGPT-4o与LLaMA-3.1在家族性地中海热诊疗信息中的可靠性、质量与准确性对比研究

【字体: 时间:2025年07月19日 来源:European Journal of Pediatrics 3.0

编辑推荐:

  为解决大型语言模型(LLMs)在家族性地中海热(FMF)诊疗信息中的可靠性问题,研究人员开展了一项开创性研究,对比评估ChatGPT-4o和LLaMA-3.1的表现。结果显示:ChatGPT-4o以80.6%的指南完全符合率显著优于LLaMA-3.1的51.6%,且未产生任何与指南相悖的回答。该研究首次证实LLMs在罕见病领域的应用潜力与局限,为临床决策支持系统开发提供重要依据。

  

这项研究对两大语言模型在家族性地中海热(Familial Mediterranean Fever, FMF)领域的表现进行了深度剖析。作为最常见的单基因自身炎症性疾病,FMF的诊断和治疗亟需精准信息支持。研究团队巧妙运用欧洲儿童风湿病单中心网络(SHARE)和欧洲抗风湿病联盟(EULAR)指南,构建了31个临床视角的专业问题库。

令人瞩目的是,经过两位拥有20年FMF诊疗经验的儿科风湿病专家双盲评估,ChatGPT-4o展现出显著优势:其80.6%的回答完全符合指南要求,且错误率为零;相较之下,LLaMA-3.1不仅符合率仅51.6%,更产生了9.7%与指南完全相悖的危险回答。通过改良DISCERN量表和全球质量评分(GQS)的严格测评,证实ChatGPT在可靠性、回答质量和准确性三个维度均具有统计学显著优势。

有趣的是,可读性分析揭示两大模型输出均需大学学历才能理解,这提示LLMs在患者教育中的应用可能存在门槛。该研究为人工智能辅助罕见病诊疗树立了新标杆,同时也警示学界:当前技术仍存在信息缺口,必须与临床专家判断结合使用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号