跨语言大语言模型在罕见病鉴别诊断中的性能评估:一项基于4917例表型包的多中心研究

《Drug Resistance Updates》:Using gene-environment interactions to explore pathways for colorectal cancer risk

【字体: 时间:2025年10月17日 来源:Drug Resistance Updates 21.7

编辑推荐:

  本研究针对大语言模型(LLM)在非英语医疗环境中的应用瓶颈,通过构建涵盖10种语言的4917例GA4GH表型包数据集,系统评估了GPT-4o和Meditron3-70B在罕见病鉴别诊断中的跨语言性能。研究发现两种模型在英语与非英语语种间诊断准确性差异小于6%(Top-3),证实LLM能够有效迁移基于英语训练的医学知识。该成果为LLM在全球多语种临床场景的部署提供了实证依据,对推动健康公平具有重要意义。

  
在当今人工智能医疗应用蓬勃发展的时代,大语言模型(LLM)正逐渐成为临床医生的得力助手,特别是在复杂疾病的鉴别诊断领域展现出巨大潜力。然而,一个不容忽视的现实是:全球绝大多数医学文献和LLM训练数据都以英语为主导,这给非英语国家的临床实践带来了潜在障碍。罕见病诊断本就面临诊断延迟长、误诊率高的挑战,约25%的患者需要经历5-30年的漫长诊断历程,40%的初始诊断存在错误。如果LLM只能在英语环境中发挥优势,那么其在全球范围内的临床应用价值将大打折扣。
正是在这样的背景下,由Leonardo Chimirri、J. Harry Caufield、Yasemin Bridges等来自多个国家的研究人员联合开展了一项开创性研究,系统评估了LLM在10种不同语言中的罕见病鉴别诊断性能。该研究近期发表在《Drug Resistance Updates》杂志,为LLM的跨语言医疗应用提供了重要实证依据。
研究人员创新性地采用了多项关键技术方法:首先利用人类表型本体(HPO)的跨语言翻译资源,将4917个真实临床病例的GA4GH表型包数据转化为10种语言的标准化提示词;接着通过自主开发的phenopacket2prompt模板系统生成结构化临床描述;然后使用GPT-4o(gpt-4o-2024-08-06版本)和Meditron3-70B两个模型进行零样本提示的鉴别诊断测试;最后采用基于Mondo疾病本体的自动化评估管道pheval.llm,对模型输出的诊断排名进行精准量化分析。
研究结果
概述性研究设计
研究团队从Phenopacket Store中筛选了4917个符合翻译要求的临床病例,涵盖360种罕见遗传病和2525个独特表型特征。每个病例平均包含14个HPO术语,确保了临床描述的丰富性和真实性。
人类表型本体国际化
通过HPO国际化项目获得的9种语言翻译版本(中文、捷克语、荷兰语、法语、德语、意大利语、日语、西班牙语、土耳其语)为研究提供了关键的语言资源支撑,所有翻译均经过医学专家验证,保证了术语的准确性和一致性。
临床病例报告的结构化数据:表型包
GA4GH表型包Schema(ISO 4454:2022标准)的使用使得临床数据能够以标准化格式表示,包括患者人口统计学信息、表型异常(使用HPO术语)和最终诊断,为跨语言比较奠定了基础。
提示生成
研究团队开发的Java应用程序phenopacket2prompt通过语言特异性模板,将结构化的表型包数据转化为自然语言描述。为确保翻译质量,研究人员对54个模拟病例进行了多语言验证,并设计了统一的指令格式,要求LLM用英语返回诊断结果以便于自动化评估。
基础定位与评分
GPT-4o通过API接口进行查询,而Meditron3-70B则在本地高性能计算集群上运行。评估采用Top-1、Top-3和Top-10准确率指标,并利用Mondo本体进行同义词映射和疾病亚型标准化,确保评估的客观性和可重复性。
结果分析
GPT-4o在英语中的Top-1准确率为19.9%,Top-3为27.0%,而其他9种语言的相应指标分别介于16.9%-20.6%和25.4%-28.6%之间,最大相对差异不超过6%。Meditron3-70B的整体性能较低但表现模式相似,英语Top-1为15.4%,其他语言在13.4%-16.9%之间。值得注意的是,两种模型在不同语言间的性能波动幅度有限,且没有出现英语明显优于其他语言的一致模式。
讨论与结论
本研究通过大规模多语言数据集证明,LLM在罕见病鉴别诊断任务中表现出令人惊讶的语言鲁棒性。尽管训练数据中存在明显的英语偏向性,但GPT-4o和Meditron3-70B能够将医学知识有效迁移到其他语言环境,这暗示LLM可能采用跨语言的内部表征机制来处理医学推理任务。
这一发现对全球健康公平具有重要意义,特别是为医疗资源有限的中低收入国家提供了新的技术可能性。当地医护人员可以使用母语与LLM交互,获得与英语环境相当的诊断支持,这将有助于缩小全球医疗差距。
研究也指出了若干局限性:仅测试了两种模型和十种语言,使用的结构化表型数据可能与真实临床笔记存在差异,以及可能存在的数据污染问题。未来研究需要扩展到更多语言,探索更先进的提示策略,并评估LLM在真实临床环境中的实际效用。
尽管LLM尚未准备好用于自主临床决策,但本研究为它们在全球多语言医疗场景中的负责任部署提供了重要参考。随着技术的不断进步和临床验证的深入,LLM有望成为打破语言障碍、促进全球健康公平的强大工具。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号