
-
生物通官微
陪你抓住生命科技
跳动的脉搏
ChatGPT-4o与LLaMA-3.1在家族性地中海热诊疗信息中的可靠性、质量与准确性对比研究
【字体: 大 中 小 】 时间:2025年07月19日 来源:European Journal of Pediatrics 3.0
编辑推荐:
为解决大型语言模型(LLMs)在家族性地中海热(FMF)诊疗信息中的可靠性问题,研究人员开展了一项开创性研究,对比评估ChatGPT-4o和LLaMA-3.1的表现。结果显示:ChatGPT-4o以80.6%的指南完全符合率显著优于LLaMA-3.1的51.6%,且未产生任何与指南相悖的回答。该研究首次证实LLMs在罕见病领域的应用潜力与局限,为临床决策支持系统开发提供重要依据。
这项研究对两大语言模型在家族性地中海热(Familial Mediterranean Fever, FMF)领域的表现进行了深度剖析。作为最常见的单基因自身炎症性疾病,FMF的诊断和治疗亟需精准信息支持。研究团队巧妙运用欧洲儿童风湿病单中心网络(SHARE)和欧洲抗风湿病联盟(EULAR)指南,构建了31个临床视角的专业问题库。
令人瞩目的是,经过两位拥有20年FMF诊疗经验的儿科风湿病专家双盲评估,ChatGPT-4o展现出显著优势:其80.6%的回答完全符合指南要求,且错误率为零;相较之下,LLaMA-3.1不仅符合率仅51.6%,更产生了9.7%与指南完全相悖的危险回答。通过改良DISCERN量表和全球质量评分(GQS)的严格测评,证实ChatGPT在可靠性、回答质量和准确性三个维度均具有统计学显著优势。
有趣的是,可读性分析揭示两大模型输出均需大学学历才能理解,这提示LLMs在患者教育中的应用可能存在门槛。该研究为人工智能辅助罕见病诊疗树立了新标杆,同时也警示学界:当前技术仍存在信息缺口,必须与临床专家判断结合使用。
生物通微信公众号
知名企业招聘