评估大语言模型用于医学文本摘要的临床安全性及幻觉率:构建可靠医疗 AI 的关键框架

【字体: 时间:2025年05月14日 来源:npj Digital Medicine 12.4

编辑推荐:

  随着大语言模型(LLMs)在医疗领域应用渐广,其输出准确性至关重要。研究人员开展 “评估 LLMs 用于医学文本摘要的临床安全性和幻觉率” 研究。结果显示,发现 LLMs 存在一定幻觉和遗漏率,经优化可降低错误。这为安全使用 LLMs 提供依据,助力医疗发展。

  在当今数字化医疗的浪潮中,大语言模型(LLMs)如同一把双刃剑,为医疗行业带来新机遇的同时,也暗藏诸多挑战。一方面,LLMs 能够自动化处理医疗任务,像对会诊内容进行总结,这大大提高了医疗工作流程的效率,还能让医护人员有更多精力投入到直接的患者照护中,有望提升整体医疗服务质量。但另一方面,LLMs 在生成内容时存在的错误问题却不容忽视。
在医疗场景下,这些错误可能引发严重后果。例如 “幻觉” 现象,即 LLMs 生成的信息在输入数据中并不存在;还有 “遗漏” 问题,指的是其遗漏了原始文档中的相关重要信息。一旦这些错误出现在临床记录中,就可能导致事实记录不准确、沟通出现偏差,进而延误患者的诊断,引发不必要的焦虑,甚至威胁患者的安全。当前,虽然已有不少研究关注 LLMs 在其他领域的表现,也有部分针对其在医疗领域的探索,但对于 LLMs 在临床应用中的错误发生率、产生原因,以及这些错误对临床安全的影响,仍然缺乏深入了解。为了填补这些空白,保障患者安全,推动 LLMs 在医疗领域的安全应用,来自英国 Tortus AI 等机构的研究人员开展了一项重要研究,相关成果发表在《npj Digital Medicine》杂志上。

为了深入探究 LLMs 在医学文本摘要中的表现,研究人员构建了一个全面的评估框架。这个框架主要包含四个关键部分:首先是一个结合临床和技术视角的错误分类系统,用于准确划分 LLMs 输出的各类错误;其次是一套实验结构,能够全面且反复地对 LLMs 文档生成过程中的输出进行比较;然后是一个临床安全框架,专门用于评估 LLMs 输出错误可能带来的潜在危害;最后还有一个集成的图形用户界面(GUI),即 CREOLA 平台,它可以执行和评估前面提到的所有步骤。

在研究过程中,研究人员进行了一系列严谨的实验。他们选取了 PriMock 数据集中的初级护理会诊记录作为样本,通过不同的提示和工作流程,使用 LLMs 生成对应的临床文档。每次实验都会由两位医生手动评估临床文档中的每一句话,判断是否存在幻觉或遗漏情况,并标注错误的严重程度。若两位医生的判断存在分歧,则由一位经验丰富(拥有超过 20 年临床经验)的高级医生进行综合判定。此外,研究人员还确定了幻觉出现的具体文档部分。

通过 18 次迭代实验,研究人员取得了一系列重要发现。在数据集方面,他们共生成了 450 对会诊记录 - 临床文档,涉及 49,590 条会诊记录句子和 12,999 条临床文档句子,这些都经过了仔细的人工评估和标注。在幻觉情况上,12,999 条临床文档句子中,有 1.47%(191 句)出现了幻觉,其中 44%(84 句)被判定为严重错误,这类错误可能影响患者的诊断和治疗。幻觉类型主要包括虚构(占 43%)、否定(占 30%)、上下文相关(占 17%)和因果关系相关(占 10%)。严重幻觉在各个文档部分都有出现,其中在 “计划(Plan)” 部分最为常见(占 21%) 。在遗漏情况上,49,590 条会诊记录句子中,有 3.45%(1712 句)被遗漏,其中 16.7%(286 句)为严重遗漏。严重遗漏最常出现在 “当前问题(Current issue)” 部分(占 55%) 。

研究人员还发现,通过不断优化提示和工作流程,可以显著降低 LLMs 生成临床文档时的错误率。例如,将实验 1 中的基础提示修改为实验 8 中的更新风格提示后,虽然幻觉略有增加,但主要是轻微错误,而严重和轻微遗漏都有所减少。在后续实验中,采用结构化提示、函数调用等策略,配合特定的风格指导,进一步降低了错误率,甚至在某些实验中完全消除了严重遗漏。

这项研究具有重要意义。它不仅系统地量化了 LLMs 在医学文本摘要中的错误情况及其潜在的临床影响,还通过迭代优化,证明了可以将 LLMs 的错误率降低到比之前报道的人类记录错误率和模型错误率更低的水平。这为 LLMs 在临床文档记录中的安全应用提供了有力的支持,也为医疗行业更广泛地采用 LLMs 技术奠定了基础。同时,研究中使用的 CREOLA 平台为后续研究提供了一个安全的实验环境,有助于进一步探索和优化 LLMs 在医疗领域的应用。

研究人员在开展这项研究时,主要运用了以下关键技术方法:一是采用多种提示技术,如结构化提示、链式思维提示等,探索不同提示对 LLMs 输出的影响;二是构建自定义的实验结构,通过设置基线实验,每次只改变一个参数,对比不同实验条件下的结果;三是利用专门开发的 CREOLA 平台,方便医生标注和分析 LLMs 输出中的错误。实验数据来源于公开的 PriMock 和 ACI bench 临床记录。

研究结果具体如下:

  • 数据集:对 PriMock 数据集中的会诊记录进行处理,生成大量临床文档并人工评估标注。
  • 实验过程:依据构建的框架进行 18 次实验,使用不同提示和工作流程,由医生评估 LLMs 输出的临床文档。
  • 幻觉情况:确定了幻觉的发生率、类型和出现的主要文档部分,以及严重幻觉的风险程度。
  • 遗漏情况:统计了遗漏的发生率、严重遗漏的比例和常见出现的文档部分。
  • 迭代优化效果:发现多种提示和工作流程策略可降低错误率,部分实验取得显著优化成果。

在研究结论和讨论部分,研究人员指出,幻觉和遗漏可能是当前 LLMs 的内在理论属性,在医疗等高风险环境中,这些错误的存在极具危险性。他们的框架能够量化这些错误的临床影响,为解决临床安全问题提供了重要依据。通过不断优化提示、工作流程和工程设计,可以减少或消除这些错误,使 LLMs 符合临床安全标准和法规。虽然研究存在样本量较小、仅评估了一种 LLM 等局限性,但仍然取得了令人鼓舞的成果,为未来的研究指明了方向,如采用不同模型和提示技术进行更多实验,探索自动化评估方法等。这项研究为 LLMs 在医疗领域的安全、有效应用提供了关键的参考,有望推动数字化医疗迈向新的高度。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号