大型语言模型在10种语言4917例罕见病诊断中的表现一致性研究
《Drug Resistance Updates》:Consistent performance of large language models in rare disease diagnosis across ten languages and 4917 cases
【字体:
大
中
小
】
时间:2025年10月17日
来源:Drug Resistance Updates 21.7
编辑推荐:
本研究针对LLMs在非英语罕见病诊断中的性能差异问题,开展了大规模多语言诊断评估研究。通过构建4917例GA4GH Phenopackets临床数据集,在10种语言环境下测试GPT-4o和Meditron3-70B模型的诊断性能。结果显示两种模型在不同语言间的诊断准确性差异微小(Top-3准确率英语27.0% vs 其他语言25.4%-28.6%),证明LLMs的临床效用可扩展至非英语环境。该研究为全球范围部署LLM辅助诊断解决方案提供了重要依据。
在医学人工智能快速发展的今天,大型语言模型(LLM)正逐渐成为临床诊断的重要辅助工具。然而,一个关键问题始终困扰着研究人员:这些主要基于英语语料训练的模型,能否在非英语环境中展现出同等的诊断能力?特别是对于罕见病(RD)诊断这种本就充满挑战的领域,语言障碍是否会成为LLMs全球应用的"阿喀琉斯之踵"?
罕见病诊断历来是医学界的难题。约25%的罕见病患者需要经历5-30年才能获得正确诊断,而高达40%的初始诊断都是错误的。目前已知的罕见病超过10,000种,基因组测序的诊断率仍然偏低(25-50%)。更严峻的是,全球大多数人口并不以英语为母语,临床实践需要使用各种不同的语言。虽然初步研究表明LLMs在英语环境下的罕见病差异诊断中表现出潜力,但大规模的多语言性能评估一直缺失。
为了解决这一关键问题,由Leonardo Chimirri、J. Harry Caufield、Yasemin Bridges等来自多个国家的研究人员组成的团队开展了这项开创性研究。他们利用人类表型本体(HPO)的翻译资源,构建了涵盖10种语言的罕见病诊断评估体系,对GPT-4o和Meditron3-70B两种模型进行了全面测试。
研究人员采用了几项关键技术方法:首先利用GA4GH Phenopacket Schema构建了4917个临床案例数据集,涵盖360种遗传病和2525种表型特征;其次通过HPO术语翻译和语言特异性模板生成10种语言的提示词;使用基于Mondo疾病本体的自动化评估系统对LLM响应进行标准化评分;最后通过phenopacket2prompt工具实现从结构化数据到自然语言提示的转换。
研究团队从Phenopacket Store版本0.1.19中筛选出4917个符合要求的临床案例,这些案例来源于706篇PubMed文献,涵盖326个致病基因、360种疾病和2899个等位基因。每个病例平均包含14个HPO术语,确保了数据的丰富性和代表性。通过HPO国际化工作组提供的翻译资源,研究人员将英语的HPO术语准确翻译成中文、捷克语、荷兰语、法语、德语、意大利语、日语、西班牙语和土耳其语。
研究团队开发了专门的Java应用程序phenopacket2prompt,通过模板化系统将结构化的Phenopacket数据转换为自然语言叙述。该系统包含固定文本(如要求模型返回差异诊断的指令)以及描述个体年龄、性别、表型异常等信息的模板。HPO术语根据目标语言进行相应替换,确保生成的提示词在每种语言中都具有临床合理性和自然度。
研究人员对GPT-4o(版本gpt-4o-2024-08-06)和医学微调的Meditron3-70B进行了测试。两种模型都采用零样本提示策略,要求返回排序的差异诊断列表。为了确保评估的客观性,研究团队使用pheval.llm管道对LLM响应的自由文本候选诊断进行解析,并通过Mondo疾病本体将同义词和疾病亚型映射到标准化医学术语。
GPT-4o在英语环境中的表现令人瞩目:在19.9%的病例中将正确诊断排在第一位(Top-1),在27.0%的病例中将正确诊断排在前三位(Top-3)。更令人惊喜的是,在其他九种非英语语言中,GPT-4o的表现与英语极为接近:Top-1准确率在16.9%至20.6%之间,Top-3准确率在25.4%至28.6%之间。这意味着不同语言之间的相对差异最多不超过6%。
Meditron3-70B的整体表现虽然相对较低(这可能与模型规模较小有关),但同样显示出跨语言的一致性模式。在英语中,该模型的Top-1准确率为15.4%,其他语言在13.4%至16.9%之间。在Top-3评估中,英语达到20.9%,其他语言在19.9%至24.0%之间。
统计检验显示,不同语言之间的性能差异确实具有统计学意义(GPT-4o的Kruskal-Wallis H检验H=30.8,p=0.0003;Meditron3的H=55.5,p=10-8)。然而,研究人员强调,这种差异的绝对幅度很小,在临床实践中可能不具有实际意义。特别是在GPT-4o的Top-3评估中,英语与其他语言的最大相对差异仅为6%,这种微小的差距可能被实际应用中的其他因素所掩盖。
研究过程中,团队面临的一个重要技术挑战是诊断术语的"接地"(grounding)问题——将模型返回的自由文本诊断映射到标准医学术语。根据不同语言和模型,有1.6%至16.0%的诊断项无法成功映射到Mondo术语。对于非拉丁文字的语言(如日语和中文),Meditron3的接地失败率明显更高,这反映了不同文字系统对模型性能的特殊挑战。
这项研究的最大意义在于证明了LLMs能够将主要从英语文本中获得的医学知识推广到其他语言的查询应答中。尽管训练数据中存在明显的语言不平衡(CommonCrawl中英语内容占43%,而其他九种语言仅占1.0%至5.4%),但模型仍能展现出跨语言的诊断能力。
然而,研究也存在若干局限性。首先,使用的是零样本提示策略,未尝试更复杂的提示工程技术;其次,评估基于表型术语列表而非真实临床记录;第三,只测试了两种模型和十种相对常用的语言;最后,可能存在数据污染偏差,即模型在训练过程中可能已经接触过部分评估数据。
尽管LLMs尚未准备好进行自主临床决策,但它们在多语言环境中的稳定表现为全球医疗公平带来了希望。特别是在中低收入国家(LMIC),LLM驱动的诊断支持服务有望弥补医疗资源不足的问题。未来需要进一步研究LLMs在更多语言环境下的表现,特别是那些在中低收入国家广泛使用但资源较少的语言。
这项研究为LLMs在全球临床实践中的应用奠定了重要基础,证明语言障碍不一定成为AI辅助诊断的不可逾越的鸿沟。随着技术的不断进步和评估体系的完善,LLMs有望成为连接不同语言医疗社区的重要桥梁,最终为全球罕见病患者带来更及时、准确的诊断希望。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号