Me-LLaMA:开启医学大语言模型的新时代

【字体: 时间:2025年03月06日 来源:npj Digital Medicine 12.4

编辑推荐:

  为解决医学大语言模型(LLMs)知识局限问题,研究人员开发 Me-LLaMA,其性能出色,推动医学 AI 发展。

  

在当今数字化时代,医学领域正积极拥抱人工智能技术,大语言模型(LLMs)的出现为医学发展带来了新的曙光。它在临床文档记录、提高诊断准确性以及患者护理管理等方面展现出巨大潜力。然而,通用领域的 LLMs 就像一个 “偏科生”,由于主要在非医学数据集上训练,缺乏专业医学知识,在医疗场景中的表现大打折扣。虽然像 ChatGPT 和 GPT-4 这样的商业 LLMs 能力先进,但它们的闭源性质限制了在医学领域的灵活定制和使用。而开源 LLMs 如 LLaMA,又因通用领域训练的局限性,难以满足医学专业需求。为了攻克这些难题,来自耶鲁大学医学院、佛罗里达大学医学院等机构的研究人员开展了一项意义重大的研究,致力于开发更有效的医学 LLMs。最终,他们成功开发出 Me-LLaMA 这一新型开源医学大语言模型家族,并将研究成果发表在《npj Digital Medicine》上。

研究人员在开发 Me-LLaMA 时,运用了多种关键技术方法。首先,他们以 LLaMA2 为基础模型,通过持续预训练和指令调整进行开发。在持续预训练阶段,构建了包含 1290 亿个标记(tokens)的混合数据集,这些数据来源于生物医学文献、临床笔记和通用领域数据。在指令调整阶段,使用了 21.4 万个高质量样本进一步优化模型。此外,还构建了广泛的医学评估基准(MIBE),涵盖六个关键文本分析任务和 12 个数据集,用于全面评估模型性能。


下面来看看具体的研究结果:


  • 医学文本分析的整体性能:在监督学习设置下,Me-LLaMA 13B 在 12 个数据集中的 11 个超越了类似规模的医学基础模型 PMC-LLaMA 13B,在 10 个数据集上优于通用基础模型 LLaMA2 13B;Me-LLaMA 70B 在 12 个数据集中的 9 个取得最佳性能。在零样本学习设置下,Me-LLaMA 13B-chat 在几乎所有 12 个数据集中优于 LLaMA2 13B-chat、PMC-LLaMA-chat 等;Me-LLaMA 70B-chat 在 12 个数据集中的 11 个优于 LLaMA2-70B-chat。与 ChatGPT 和 GPT-4 相比,经过任务特定的监督微调后,Me-LLaMA 在 8 个数据集中的 7 个超越 ChatGPT,在 5 个数据集上优于 GPT-4。

  • 复杂临床病例诊断的性能:在复杂临床病例诊断任务中,Me-LLaMA-70B-chat 的自动评估和人工评估结果都表现出色,其性能与 GPT-4 和 ChatGPT 相当,显著优于 LLaMA2-70B-chat。

  • 持续预训练和指令调整的影响:研究表明,持续预训练和指令调整都能显著提升模型的零样本学习能力。指令调整对提升模型遵循特定任务提示的能力非常有效,而持续预训练对于较大模型(如 Me-LLaMA 70B)在捕捉专业领域知识方面有更明显的作用,两者结合能取得最佳效果。


综合研究结论与讨论部分内容,Me-LLaMA 的出现具有里程碑式的意义。它编码了全面的医学知识,具备强大的零样本学习能力,在多种学习场景下优于现有的开源医学 LLMs,与主要商业模型(如 ChatGPT 和 GPT-4)相比也毫不逊色。这一成果为开发更准确、可靠和全面的医学 LLMs 开辟了新道路,凸显了 LLMs 在医学应用中的巨大潜力。然而,研究也发现 Me-LLaMA 存在一些局限性,如在命名实体识别(NER)和关系提取(RE)等特定任务中表现有待提高,模型可能生成错误或有偏差的信息,以及受限于基础模型的 4096 个标记的处理能力等。但这也为后续研究指明了方向,未来可通过强化学习从人类反馈(RLHF)等方法来改进模型。Me-LLaMA 的诞生为医学领域带来了新的希望和机遇,有望推动医学人工智能的发展迈向新的高度。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号