大语言模型(LLM)在罕见病多语言鉴别诊断中的性能评估:一项基于4917例临床表型数据的大规模跨语言研究

《Drug Resistance Updates》:Global childhood diarrhoea prevalence and its determinants: a systematic meta-analytic assessment, 1985–2024

【字体: 时间:2025年10月17日 来源:Drug Resistance Updates 21.7

编辑推荐:

  本研究针对大语言模型(LLM)在非英语医疗环境中应用的可行性问题,系统评估了GPT-4o和Meditron3-70B在10种语言中对4917例罕见病病例的鉴别诊断性能。研究发现两种模型在不同语言间的诊断准确性差异微小(Top-3准确率波动范围仅3.2%),证明LLMs能够有效利用主要来自英语训练的医学知识支持多语言临床诊断,为全球范围部署AI辅助诊断解决方案提供了重要依据。

  
在当今人工智能快速发展的时代,大语言模型(Large Language Models, LLM)正在医疗领域展现出前所未有的潜力。这些模型通过消化海量文本数据,不仅能生成流畅的语言,还展现出令人惊讶的医学知识编码和推理能力。特别是在疑难杂症的诊断支持方面,LLM被认为有望成为医生的得力助手。然而,一个关键问题悬而未决:这些主要使用英语数据训练的模型,能否在非英语的临床环境中同样有效地工作?
现实情况是,全球大多数医学文献和LLM训练数据都是英文的。根据CommonCrawl的数据,互联网上43%的网页是英文的,而其他语言的比例要低得多——从德语的5.4%到捷克语的仅1.0%。这种语言不平衡引发了关于AI公平性的重要关切:如果LLM在英语环境中表现更好,那么非英语地区的患者可能无法平等享受AI技术带来的医疗进步。
罕见病诊断正是检验LLM能力的绝佳试金石。约25%的罕见病患者需要5-30年才能获得正确诊断,而且高达40%的初步诊断是错误的。全球有超过10,000种罕见病,基因组测序的诊断率仍然较低(25-50%)。虽然LLM在英语环境中已显示出协助罕见病诊断的潜力,但全球大多数人口并不以英语为母语,临床实践使用的是各种不同的语言。
为了解决这一关键问题,由多国研究人员组成的团队开展了一项开创性研究,系统评估了LLM在多种语言中的罕见病鉴别诊断性能。该研究近期发表在《Drug Resistance Updates》上,为LLM在全球医疗中的应用提供了重要证据。
研究人员采用了几个关键技术方法:利用人类表型本体(Human Phenotype Ontology, HPO)的多语言翻译和GA4GH表型包模式(Phenopacket Schema)构建了4917个临床病例描述;开发了程序化模板系统生成10种语言的标准化提示;使用GPT-4o和Meditron3-70B模型进行零样本提示的鉴别诊断;基于Mondo疾病本体论实现自动化响应评估和评分。
概述研究
研究团队进行了LLM在遗传鉴别诊断方面能力的多语言比较。他们分析了来自文献的4917份病例报告,并生成10种语言的LLM提示。然后指导两个LLM——openAI的GPT-4o和医学微调的Meditron3-70B(基于Meta AI的开源Llama-3.1-70B-Instruct)——为每个病例返回可能的诊断排名列表。
人类表型本体论国际化
人类表型本体论(HPO)提供了19,034个术语的标准词汇表,描述人类疾病的表型异常。HPO国际化工作包括语言特定的工作组,已将HPO术语标签从英语翻译成其他语言。本研究使用了10种具有广泛HPO术语翻译覆盖的语言。
来自病例报告的结构化数据:表型包
全球基因组与健康联盟(GA4GH)表型包模式是共享表型、遗传和临床信息的标准。本研究使用的表型包来自Phenopacket Store版本0.1.19,这是一个公开可用的手工策划的已发表病例报告集合。
提示生成
表型包包含通常存储为JSON文件的分层结构。研究团队开发了一种策略,通过模板系统创建每个表型包的叙述性提示。每个模板由恒定文本(如指示模型返回鉴别诊断的标题)和一系列模板组成,用于表示表型包所代表个体的年龄、性别以及观察到的和排除的表型异常。
grounding和评分
向GPT-4o的查询是通过其API在2024年11月22日至2025年5月20日期间进行的。Meditron3的基础模型是Llama-3.1-70B-Instruct,其知识截止日期为2023年12月。研究团队指示LLM以自由文本形式回复,而不是相应的本体术语标识符。
研究结果
研究结果显示,GPT-4o在英语中的Top-1准确率为19.9%,Top-3为27.0%。相比之下,其他九种非英语语言的Top-1准确率在16.9%至20.6%之间,Top-3在25.4%至28.6%之间。Meditron3模型在英语中的Top-3准确率为20.9%,其他九种语言在19.9%至24.0%之间。
这些结果表明,LLM在罕见病鉴别诊断方面的性能在测试的十种语言中基本一致。对于GPT-4o,英语在Top-1和Top-10方面表现第三好。在Top-1方面,英语的正确案例率为19.9%,而其他语言的范围为16.9%至20.6%。在Top-3方面,相对差距减小,英语的鉴别诊断前三个候选疾病中的正确诊断率为27.0%,而其他语言的范围为25.4%至28.6%。
医学微调的Meditron3-70B显示出较差的总体现性能(尽管这可能主要归因于模型可能小得多),在Top-10方面有相当多的可变性。英语在Top-1方面得分为15.4%,而其他语言在13.4%至16.9%之间,在Top-10方面得分最高的是荷兰语,为28.0%,英语落后,为23.2%,是所有语言中最低的。
讨论
研究团队用十种不同语言的4917个罕见病病例提示了GPT-4o和Meditron3语言模型。本研究中的所有语言至少构成CommonCrawl的约1%,这是衡量给定语言中可用互联网数据量的代理,反映了可用于训练的语言特定数据。对于这十种语言,研究表明GPT-4o和Meditron3能够以相似的性能进行罕见病的鉴别诊断。
创建大量源自真实病例的类似 vignette 的真实提示并在多种语言中翻译,克服了以前LLM诊断研究的局限性,例如使用广泛且不现实的长篇病例报告、使用模拟/合成患者、使用相对较小的队列,以及来自不同国家的真实临床笔记的风格和长度差异。
本研究有几个局限性。研究团队对每种语言使用相同的零样本提示策略,没有尝试使用更复杂的策略(如思维链或检索增强生成方法)来提高性能。评估使用了表型术语列表,而不是叙述性临床笔记,因此可能无法反映与个别语言相关的挑战或细微差别。此外,只测试了两种模型,并且只能测试选择相对广泛使用的欧洲和亚洲语言,母语人口约23亿。
尽管很难衡量LLM中数据污染偏差的程度,但已知数据污染会影响LLM在各种任务上的基准评估结果。GPT和Meditron3很可能能够访问用于执行评估的一些已发表临床数据,因此评估结果可能不能反映对新数据的预期。
LLM在不同语言中处理复杂病例诊断的能力值得注意,因为它们是主要用英语数据训练的通用语言模型。OpenAI和Meta AI都声称相对于以前的模型显著提高了多语言能力。LLM训练使用的海量数据可能导致数据污染,可能高估预期新数据的性能。因此,本研究测量的性能可能不能泛化。
尽管有兴趣使用LLM支持临床护理,但LLM目前尚未准备好进行自主决策。在英语或其他语言中广泛临床应用LLM之前,有必要制定关于准确和道德使用LLM的严格指南。
跨语言的一致性能对这些模型在全球临床实践中的实施有影响。许多低收入和中等收入国家(LMICs)的人获得医疗保健服务的机会有限。随着LLM在支持鉴别诊断和相关领域(如床边咨询问题回答和解决公众问题)方面越来越熟练,通过用LLM驱动服务补充现有系统,有很大潜力改善LMICs人民的护理。希望提供当地语言的此类服务,特别是面向消费者的应用。需要未来的工作来评估LLM在LMICs的性能(本研究评估的所有语言都来自高收入国家)。
研究结论表明,大语言模型在十种语言中展示出的罕见病鉴别诊断性能相对一致,尽管存在统计显著差异,但实际差异很小。这一发现具有重要意义,因为它表明即使训练数据主要来自英语,LLM仍然能够将医学知识泛化到其他语言环境。这种跨语言性能的一致性为在全球范围内部署LLM辅助诊断解决方案提供了可能性,特别是在医疗资源有限的地区。然而,研究人员也强调LLM目前还不适合自主临床决策,需要制定严格的使用指南。未来的研究需要评估LLM在更多语言环境中的性能,特别是低收入和中等收入国家的语言环境。
这项研究通过大规模多语言评估,为人工智能在全球医疗公平应用提供了重要证据,展示了技术突破如何有望缩小不同语言地区之间的医疗差距。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号