大型语言模型在管理复杂用药方案中的作用:基于案例的评估

《Frontiers in Pharmacology》:Large language models management of complex medication regimens: a case-based evaluation

【字体: 时间:2025年11月24日 来源:Frontiers in Pharmacology 4.8

编辑推荐:

  本研究评估了四个大型语言模型(GPT-3.5、GPT-4、Claude-2、Llama-2-70b)在ICU患者复杂用药管理中的安全性及疗效。通过单次提示生成用药方案,并由临床药师评估。结果显示GPT-4继续率最高(67.3%),致命错误率最低(16.3%),但所有模型均存在较高用药错误率(32-48次/案例),且存在逻辑不一致和依赖现有数据的问题。结论提示需谨慎使用现有LLMs,并优化提示工程和持续培训。

  本研究旨在评估四种大型语言模型(LLMs)在制定复杂重症监护病房(ICU)患者治疗方案中的表现。尽管LLMs在疾病诊断方面已展现出强大的能力,但其在制定基于证据的治疗计划方面的研究仍较为有限。因此,本研究设计了一套严格的测试流程,以验证这些模型是否能够在临床复杂情况下提供安全且有效的药物管理建议。

研究团队共开发了八个高保真的患者案例,涵盖了ICU常见的临床状况,如败血症、肺炎、休克、糖尿病等。每个案例都包含详细的病史、实验室数据、生命体征、家庭用药以及当前用药情况。这些案例被设计为反映实际医疗场景中常见的药物管理问题,例如胃肠道溃疡预防、静脉血栓栓塞症预防、抗生素选择、败血症管理等。此外,每个案例还包含一个“真实情况”(ground truth),即由七位重症监护领域的临床专家通过多数投票确定的最合适的药物方案。在初始提示中,这些真实情况被提供给LLMs,以便它们学习如何构建合适的药物管理计划,但在后续的患者案例分析中,LLMs被要求独立生成建议,而不依赖真实情况的直接引用。

研究中使用的四种LLMs分别是ChatGPT(GPT-3.5)、ChatGPT(GPT-4)、Claude-2和Llama-2–70b。为了确保模型能够理解任务要求,研究采用了“单次提示”(one-shot prompting)结合“上下文学习”(in-context learning)的方法。具体而言,首先向模型展示一个包含真实情况的示例案例,使其熟悉预期的输出格式和临床推理方式。随后,模型被要求根据新的患者案例生成药物管理计划,这些案例与示例案例在患者特征和临床背景上有所不同,但同样具有复杂性。这种设计有助于评估模型是否能够独立应用其知识,而不是仅仅复制示例中的内容。

在模型生成的药物管理计划完成后,由七位具有重症监护药理学认证的临床专家进行评估。评估内容包括:(1)对每个药物的“继续”或“停用”建议及其理由;(2)停药的原因,如明显错误、治疗优化、缺乏适应症等;(3)是否存在至少一项可能导致生命危险的药物推荐;(4)对整体药物管理方案的同意程度,使用1-5分的李克特量表进行评分;(5)对药物管理方案的定性评论。评估人员在评估过程中被要求忽略模型的身份信息,以减少偏见。最终,模型推荐的药物管理方案中,存在不同数量的药物错误,其中一些错误可能对患者造成严重危害。

研究结果显示,GPT-4在所有测试的LLMs中表现最佳,其推荐的药物被临床专家继续使用的比例最高,达到67.3%,其次是GPT-3.5(59.7%)、Llama-2–70b(55%)和Claude-2(54.6%)。这一结果表明,GPT-4在生成药物管理方案时,能够更准确地识别药物的适应症和剂量,从而减少潜在的错误。此外,GPT-4推荐的药物中,生命危险性错误的比例最低,仅为16.3%,而Claude-2的这一比例最高,达到57.1%。这说明在生成药物方案时,模型的准确性与安全性密切相关,GPT-4在这一方面明显优于其他模型。

然而,尽管GPT-4表现突出,其他模型也展现出一定的潜力。例如,Llama-2–70b和Claude-2在某些案例中能够正确识别患者的特定需求,并结合临床指南提出合理的药物调整建议。这表明,不同模型在处理复杂药物管理任务时,可能会根据其训练数据和推理能力表现出不同的优势。例如,在一个涉及高颅压的案例中,GPT-3.5能够识别患者的状况并推荐晶体液进行复苏,尽管这一建议在该患者已接受过复苏的情况下可能并不适用。这说明模型在某些情况下能够从病史中提取关键信息,并作出相应的临床推理,但其建议仍需结合具体情况进行验证。

此外,研究还发现,LLMs在某些情况下倾向于直接复制案例中现有的药物名称和剂量,而未能根据患者的个体情况作出调整。例如,某些模型在推荐药物时,仅重复了患者当前使用的药物,而没有考虑其是否适合继续使用。这种现象可能表明,LLMs在处理药物管理任务时,仍然存在一定的局限性,尤其是在需要结合患者病史、实验室数据和生命体征进行个性化判断时。因此,研究团队认为,尽管LLMs在某些方面展现出潜力,但其在临床决策中的应用仍需谨慎。

研究的局限性主要包括以下几个方面:首先,LLMs并未获得完整的电子健康记录(EHR)信息,这可能影响其生成药物管理方案的全面性。其次,测试仅基于八个案例,这些案例在某些方面具有相似性,可能无法全面反映LLMs在不同临床情境下的表现。此外,研究中使用的LLMs并未专门针对医疗领域进行训练,因此它们可能在处理高度专业化的医疗问题时存在一定的不足。最后,研究中评估药物管理方案的标准并未完全统一,而是依赖于临床专家的主观判断,这可能导致一定的偏差。

尽管存在这些局限性,研究仍为LLMs在药物管理领域的应用提供了重要的见解。首先,LLMs在某些情况下能够正确识别药物的适应症和剂量,这表明它们在处理结构化信息时具有一定的能力。其次,LLMs的推荐方案中存在大量错误,尤其是生命危险性的错误,这提示在临床应用中需要严格的审核机制。最后,研究强调了在医疗领域使用LLMs时,必须结合临床专家的反馈和实际数据,以确保推荐方案的安全性和有效性。

未来的研究方向可能包括以下几个方面:首先,开发更高效的训练和微调方法,以提高LLMs在药物管理任务中的准确性和安全性。其次,建立标准化的评估体系,以便更客观地衡量LLMs的性能。第三,探索如何将LLMs与临床专家的反馈相结合,以优化其推荐方案。第四,研究如何在医疗不确定性的背景下,使LLMs能够合理地表达“我不确定”或“我需要更多信息”的观点,以避免因错误判断而对患者造成伤害。

总的来说,这项研究揭示了LLMs在药物管理领域的潜力,同时也指出了其在实际应用中的挑战。虽然当前的LLMs在某些方面表现良好,但它们仍需经过更严格的训练和测试,以确保其在临床决策中的可靠性。此外,研究还强调了在医疗领域使用LLMs时,必须保持谨慎态度,避免因模型的不准确判断而对患者造成伤害。未来,随着LLMs技术的不断进步和医疗数据的不断完善,这些模型有望在药物管理领域发挥更大的作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号