大型语言模型在罕见病识别中的比较分析:助力精准诊断的新突破

【字体: 时间:2025年04月02日 来源:Orphanet Journal of Rare Diseases 3.4

编辑推荐:

  为解决罕见病诊断困难(如诊断延迟、误诊等)的问题,研究人员开展了对多种大型语言模型(LLMs)在罕见病识别中有效性的研究。结果显示 LLMs 表现优于人类医生,Claude 3.5 Sonnet 准确率最高。这为临床诊断提供了新工具,有重要意义。

  在医学领域,罕见病的诊断一直是一个棘手的难题。由于罕见病发病率低、症状表现多样,而且临床认知有限,缺乏可靠的监测工具,导致诊断过程困难重重。这不仅使得患者的症状加重,还可能引发一系列并发症,最终导致治疗效果不佳,给患者及其家庭带来沉重的负担。全球范围内,超过 3.5 亿人受到罕见病的影响,这不仅造成了巨大的经济压力,也对社会健康构成了挑战。在这样的背景下,开发能够早期诊断罕见病、提高治疗效果和有效监测病情的工具迫在眉睫。
随着人工智能技术的飞速发展,大型语言模型(Large Language Models,LLMs)逐渐走进人们的视野。这些模型通过对海量文章、书籍以及医学文献中的词汇进行学习训练,具备了强大的语言和数据处理能力。它们能够整合全面的临床信息,利用丰富的知识库来识别罕见病并给出潜在的诊断建议。然而,不同 LLMs 在罕见病诊断方面的表现究竟如何,尚未得到系统评估。

为了填补这一空白,成都市第一人民医院肾内科等机构的研究人员开展了一项具有重要意义的研究。他们从中国医学病例库(Chinese Medical Case Repository,CMCR)获取了 152 例罕见病病例数据,这些病例均在 NIH 的遗传和罕见病信息中心(Genetic and Rare Diseases Information Center,GARD)数据库或中国罕见病目录(Chinese Rare Diseases List,CRDL)中得到确认。为了模拟真实的临床诊断场景,研究人员在选取数据时,特意排除了基因检测结果、组织活检等能够直接明确诊断的特征性病理标记,仅保留了临床病史、体格检查结果、人口统计学信息、症状描述以及常规实验室数据等在综合医院初诊时常见的信息。而且,分析所用的病例记录均为患者首次确诊罕见病之前的资料。

研究人员使用了四种广泛应用的 LLMs,即 ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced 和 Llama 3.1 405B,让它们根据提供的病例信息生成前五个最可能的诊断,并按照可能性进行排序。在评估诊断性能时,研究人员采用了准确率和加权准确率两个关键指标(加权准确率计算公式:,其中权重设定为:第 1 位 5 分,第 2 位 4 分,第 3 位 3 分,第 4 位 2 分,第 5 位 1 分) 。对于人类医生的评估,研究最初招募了三名肾内科主任医师,每人都有超过 15 年的临床经验。医生们获得与 LLMs 相同的临床信息,并被要求为每个病例提供五个可能的诊断。但由于病例复杂,两名医生中途退出,最终只有一名医生完成了全部 152 例病例的评估。

研究结果令人瞩目。在这 152 例病例中,涵盖了 66 种不同的罕见病,包括代谢紊乱(如苯丙酮尿症、生物素酶缺乏症、肉碱缺乏症)、遗传疾病(如 Alport 综合征、Fabry 病、马凡综合征)、自身免疫性疾病(如自身免疫性脑炎、自身免疫性垂体炎)以及神经系统疾病(如肌萎缩侧索硬化症、多发性硬化症、脊髓性肌萎缩症)等。在参与评估的 LLMs 中,Claude 3.5 Sonnet 表现最为出色,准确率高达 78.9%(95% CI,71.9 - 84.9%),显著高于其他模型,Gemini Advanced 的准确率为 67.8%(95% CI,60.4 - 74.5%),ChatGPT-4o 为 63.2%(95% CI,55.4 - 70.6%),Llama 3.1 405B 为 57.2%(95% CI,49.5 - 64.6%)。与之相比,人类医生的准确率仅为 26.3%(95% CI,20.0 - 33.6%)。在加权准确率方面,Claude 3.5 Sonnet 同样位居榜首,得分达到 3.74,随后依次是 Gemini Advanced(3.06)、ChatGPT-4o(2.81)和 Llama 3.1 405B(2.44)。

这项研究表明,四种评估的 LLMs 在诊断准确率上均超过了人类医学专业人员,凸显了它们作为临床决策宝贵工具的潜力。其中,Claude 3.5 Sonnet 在诊断复杂罕见病方面表现卓越。研究采用真实世界的诊断场景,没有使用明确的疾病标记,仅依靠临床常见信息进行诊断,这充分模拟了医生日常面临的挑战,也反映出人类医生在诊断罕见病时面临的困难。与人类医生不同,LLMs 能够分析数百万病例中的模式,尤其在罕见病专业知识有限的地区,其作为诊断辅助工具的潜力巨大。

不过,将 LLMs 整合到临床实践中仍需谨慎。不同临床环境可能会影响其有效性,同时,伦理问题和数据隐私也需要重点关注。虽然开源 LLMs(如 Llama 3.1 405B)提供了更透明的训练过程和更好的人为监督,但仍需进一步验证和完善,以确保在医学领域安全有效地应用。

研究人员在开展这项研究时,主要运用了以下关键技术方法:从中国医学病例库获取罕见病病例数据,这些病例均经权威数据库确认;利用 ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced 和 Llama 3.1 405B 这四种大型语言模型对病例进行分析诊断;通过设定准确率和加权准确率两个指标,运用 Python 3.7.0 进行统计分析,以评估模型和人类医生的诊断性能。

研究结果部分:首先是病例情况,研究包含 152 例代表 66 种不同罕见病的病例,涵盖多种疾病类型。其次是诊断准确性,Claude 3.5 Sonnet 准确率最高,显著高于其他模型和人类医生。最后是加权准确率,Claude 3.5 Sonnet 同样得分最高。

研究结论和讨论部分:研究证明了 LLMs 在罕见病诊断方面的潜力,为临床诊断提供了新的途径和工具。Claude 3.5 Sonnet 表现突出,但随着 LLMs 的不断更新,其相对性能可能变化,需持续评估。同时,研究也指出了局限性,如病例来源地域可能存在偏差、回顾性病例报告无法完全反映实时临床决策复杂性等。总体而言,这项研究为罕见病诊断领域带来了新的思路和希望,推动了人工智能技术在医学领域的应用探索。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号