编辑推荐:
为探究大语言模型(LLMs)在医疗决策中准确性存疑的问题,研究人员评估 7 种公开 LLMs 在心血管抗栓护理场景中的表现。结果显示不同 LLMs 性能差异大,部分超临床医生。这为安全使用 LLMs 提供参考,助力临床决策。
在当今数字化时代,人工智能技术蓬勃发展,大语言模型(Large Language Models,LLMs)如雨后春笋般涌现,并逐渐渗透到各个领域,医疗行业也不例外。自 2018 年 LLMs 诞生以来,其基于 Transformer 架构展现出强大的自然语言处理能力,能够快速处理和分析海量信息。在医疗领域,它似乎拥有巨大潜力,可辅助医生进行复杂的医疗决策。想象一下,医生在面对疑难病症时,能迅速从 LLMs 获取大量相关研究文献和临床指南,为诊断和治疗提供参考,这听起来十分诱人。
然而,理想很丰满,现实却很骨感。LLMs 在医学应用中并非一帆风顺。其中一个令人担忧的问题便是 “幻觉” 现象,即模型生成看似可信实则不准确或虚构的文本。此前的研究结果也参差不齐,有的研究表明 LLMs 在在线患者论坛和 licensing exams 中能提供高度准确的医疗建议和推理,但也有研究指出其推荐存在严重准确性问题,可能导致不恰当的患者护理和不良后果。而且,以往研究多集中于较老的免费层级模型,如 GPT-3.5(通过 ChatGPT)、GPT-4 Mini 和 Gemini 1.5 等,这些模型不仅技术相对落后,训练数据集也可能过时,在解决实际问题时表现欠佳。此外,不同研究对 LLMs 性能的评估缺乏统一标准,通常仅用数字准确性评分,却未与人类表现进行有效对比,让人难以判断其实际价值。因此,开展一项全面、科学的研究来评估 LLMs 在医疗领域的真实表现迫在眉睫。
为了深入探究这些问题,来自未知研究机构的研究人员开展了一项极具意义的研究。该研究成果发表在《Canadian Journal of Cardiology》上。研究人员对 7 种公开可用的 LLMs 进行评估,聚焦于它们在基于加拿大和美国心血管护理临床实践指南的标准化抗栓护理场景中的表现,并将结果与心血管专家在 2023 年加拿大心血管大会期间参与调查的准确性进行对比。同时,研究人员还深入分析模型的推理过程,包括参考文献的使用、证据的解释以及临床适用性等方面。
在研究过程中,研究人员运用了多种关键技术方法。首先,创建了标准化的临床场景。研究人员围绕心血管抗栓护理,精心设计了 27 个标准化场景,涵盖了广泛的临床问题,并将其分为 A、B、C 三组,分别涉及不同的心血管疾病类型。这些场景均经过 3 位加拿大皇家内科医学院认证专家的审核,确保了场景的专业性和科学性。其次,通过调查收集数据。在 2023 年加拿大心血管大会上,研究人员对参与的心血管专家进行调查,收集他们对这些标准化场景的回答,以此作为人类临床医生的表现基线。最后,由 3 位独立的临床医生对 LLMs 的回答进行准确性和推理方面的评估,保证评估的客观性和可靠性。
研究结果如下:
- LLMs 在临床场景中的表现差异显著:在 27 个场景中,Claude 3 Opus 表现最佳,正确回答了 23 个案例(85%),显著优于其他 LLMs(p<0.001),甚至超过了所有临床医生组。而 GPT-3.5 表现最差,平均仅正确管理 2.7 个案例(10%)。不同模型之间的准确性得分差距明显,这表明 LLMs 在心血管临床场景中的能力参差不齐。
- LLMs 与临床医生表现对比:在临床医生中,心脏病专家和高级住院医师的准确率最高,分别为 43%(CI95: 32 - 52%)和 47%(CI95: 39 - 56%),与 GPT-4o(55%)和 Claude 3.5 Sonnet(44%)的表现相当。全科医生的表现与 Claude 3 Sonnet 和 Gemini 1.5 相近,而医学生的准确率仅为 8.3%(CI95: 2 - 15%),与 GPT-3.5(10%)接近。这说明部分 LLMs 的表现已经可以与专业临床医生相媲美,但也有部分模型表现欠佳。
- 在生活方式和饮食建议方面的表现:所有测试的 LLMs 在提供关于生活方式和饮食建议方面表现出可接受的性能。这表明 LLMs 在一些基础的健康指导方面具有一定的实用性,能为患者提供有价值的信息。
研究结论和讨论部分指出,该研究突出了人工智能驱动的临床决策支持在心血管抗栓护理方面取得的显著进展。虽然 LLMs 有望成为帮助临床医生处理复杂病例、应对不断增长的医学知识的有力工具,但仍需谨慎对待。临床医生和患者在使用 LLMs 时应保持警惕,根据具体任务选择最合适的模型,并仔细核对提供的参考资料,以确保安全使用。此外,未来研究应正式评估临床医生与 LLMs 混合决策模式,进一步探索如何更好地发挥 LLMs 在医疗领域的优势。这项研究为 LLMs 在心血管抗栓护理乃至整个医疗行业的应用提供了重要参考,有助于推动人工智能与医疗领域的深度融合,提高医疗服务质量和效率。