ChatGPT-4o与LLaMA-3.1在家族性地中海热诊疗信息中的可靠性、质量与准确性对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月19日 来源：European Journal of Pediatrics 3.0

编辑推荐：

　　为解决大型语言模型(LLMs)在家族性地中海热(FMF)诊疗信息中的可靠性问题，研究人员开展了一项开创性研究，对比评估ChatGPT-4o和LLaMA-3.1的表现。结果显示：ChatGPT-4o以80.6%的指南完全符合率显著优于LLaMA-3.1的51.6%，且未产生任何与指南相悖的回答。该研究首次证实LLMs在罕见病领域的应用潜力与局限，为临床决策支持系统开发提供重要依据。

这项研究对两大语言模型在家族性地中海热(Familial Mediterranean Fever, FMF)领域的表现进行了深度剖析。作为最常见的单基因自身炎症性疾病，FMF的诊断和治疗亟需精准信息支持。研究团队巧妙运用欧洲儿童风湿病单中心网络(SHARE)和欧洲抗风湿病联盟(EULAR)指南，构建了31个临床视角的专业问题库。

令人瞩目的是，经过两位拥有20年FMF诊疗经验的儿科风湿病专家双盲评估，ChatGPT-4o展现出显著优势：其80.6%的回答完全符合指南要求，且错误率为零；相较之下，LLaMA-3.1不仅符合率仅51.6%，更产生了9.7%与指南完全相悖的危险回答。通过改良DISCERN量表和全球质量评分(GQS)的严格测评，证实ChatGPT在可靠性、回答质量和准确性三个维度均具有统计学显著优势。

有趣的是，可读性分析揭示两大模型输出均需大学学历才能理解，这提示LLMs在患者教育中的应用可能存在门槛。该研究为人工智能辅助罕见病诊疗树立了新标杆，同时也警示学界：当前技术仍存在信息缺口，必须与临床专家判断结合使用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号