大型语言模型在罕见病多语言鉴别诊断中的跨语言性能评估

《Drug Resistance Updates》:Alterations of the nasal and oral microbiota in multiple sclerosis

【字体: 时间:2025年10月17日 来源:Drug Resistance Updates 21.7

编辑推荐:

  本研究针对LLMs(Large Language Models)在非英语医疗场景中的应用瓶颈,通过构建多语言临床病例库,系统评估GPT-4o与Meditron3-70B在10种语言中的罕见病诊断性能。结果显示模型跨语言诊断准确性差异微小,表明LLMs可突破语言壁垒服务于全球临床实践,为AI辅助诊断的公平性提供实证支持。

  
随着人工智能技术的飞速发展,大型语言模型(Large Language Models, LLMs)在医疗领域的应用日益广泛,尤其在辅助临床鉴别诊断方面展现出巨大潜力。然而,当前主流LLMs(如GPT系列)的训练数据以英文文本为主,其在不同语言环境下的诊断效能是否能够保持一致,成为影响全球医疗公平性的关键问题。罕见病(Rare Diseases, RDs)诊断本身即面临巨大挑战——约25%的患者需经历5-30年才能确诊,且40%的初始诊断存在错误。尽管LLMs在英语语境中已证明能有效支持罕见病鉴别诊断,但全球多数人口以非英语为母语,亟需验证LLMs在多语言临床实践中的适用性。
为系统评估LLMs的跨语言诊断能力,由多国研究者组成的团队在《Drug Resistance Updates》发表了这项大规模对比研究。研究人员利用全球基因组与健康联盟(GA4GH)的表型包(Phenopacket)Schema,基于人类表型本体(Human Phenotype Ontology, HPO)构建了4917个标准化临床病例 vignettes,涵盖360种遗传性疾病和2525种表型特征。通过HPO术语的多语言翻译(涉及中文、捷克语、荷兰语、法语、德语、意大利语、日语、西班牙语和土耳其语)及语言特异性模板,生成十种语言的诊断提示词。采用零样本提示(zero-shot prompt)策略,分别测试通用模型GPT-4o(版本gpt-4o-2024-08-06)和医学专用微调模型Meditron3-70B的鉴别诊断表现,并通过Mondo疾病本体对输出结果进行自动化标准化与评估。
关键技术方法包括:1)利用HPO多语言翻译体系构建跨语言临床提示词;2)基于GA4GH Phenopacket Schema从已发表的706篇文献中提取4917例真实病例数据;3)通过本体驱动的自动化评估管道(pheval.llm工具)实现诊断结果的标准化映射与排名分析;4)采用零样本提示策略确保模型评估的一致性与可比性。
研究结果
Overview of study:研究团队通过系统对比发现,两种模型在十种语言中的诊断表现高度接近。GPT-4o在英语中的Top-1准确率为19.9%,Top-3为27.0%;而非英语语言的Top-1准确率介于16.9%-20.6%,Top-3介于25.4%-28.6%,最大相对差异不超过9%。Meditron3-70B的整体性能较低(英语Top-1为15.4%),但语言间差异仍处于可控范围(非英语Top-1为13.4%-16.9%)。
Human Phenotype Ontology internationalisation:HPO术语的跨语言翻译是本研究的基础支撑,各语言版本均经由医学专家审核,确保临床描述的准确性与一致性。
Structured data from case reports: phenopackets:研究所用病例来源于真实临床文献,包含性别、年龄、表型特征等结构化信息,平均每位患者关联14个HPO术语,极大增强了病例的多样性与真实性。
Prompt generation:通过定制化Java工具phenopacket2prompt实现病例数据到自然语言提示的自动转换,并经由多轮人工校验确保提示词在不同语言中的临床合理性。
Grounding and scoring:采用Mondo疾病本体对LLM输出的自由文本诊断进行标准化映射,解决了术语异构性问题,并通过排名统计(Top-1/3/10)量化模型性能。
讨论与结论
本研究首次在大规模罕见病病例库上验证了LLMs跨语言诊断的稳定性。结果表明,即使训练数据以英文为主,LLMs仍能通过潜在的知识泛化机制,在多种语言中实现与英语接近的诊断性能。这一发现对推进AI医疗的全球化应用具有重要意义——尤其为低收入和中等收入国家(LMICs)的医疗资源短缺问题提供了技术解决路径。然而,研究也存在一定局限性:仅测试了十种语言,且未采用更先进的提示策略(如思维链或检索增强生成);模型可能受到训练数据污染的影响;临床提示基于标准化表型术语而非真实临床叙述,可能无法完全反映语言特有的细微差异。未来需进一步探索LLMs在更多语言(尤其是LMICs常用语言)中的表现,并制定严格的伦理与应用指南,以确保LLMs在临床实践中的安全、有效与公平使用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号