大型语言模型生成脑部MRI协议的性能评估:GPT-4o、o3-mini、DeepSeek-R1与Qwen2.5-72B的比较研究及其临床自动化潜力

【字体: 时间:2025年09月16日 来源:European Radiology 4.7

编辑推荐:

  本研究针对脑MRI协议制定耗时且加重放射科医生负担的问题,评估了四种大型语言模型(LLM)生成序列级脑MRI协议的性能。研究发现,经上下文学习增强后,所有模型性能显著提升,其中o3-mini表现最优,其准确性可与放射科住院医师相媲美,展现了LLM在(半)自动化医疗流程中的巨大潜力。

  

在当今医疗影像需求日益增长的背景下,脑部磁共振成像(MRI)已成为诊断神经系统疾病不可或缺的工具。然而,确定合适的MRI扫描序列——这一被称为“协议制定”(protocoling)的过程——却是一项复杂且耗时的任务。放射科医生必须仔细权衡临床需求与效率,既要确保协议足够全面以解决临床指征,又要避免不必要的序列以减少扫描时间和医疗成本。据统计,协议错误是导致回调检查(callback examinations)的最常见原因,占比高达28%,这不仅增加了医疗负担,还可能使患者面临对比剂过敏等风险。

尽管医疗机构通常针对常见临床场景制定了一套标准化成像协议,但这些标准协议在复杂病例面前往往显得力不从心,需要个体化调整。更值得注意的是,协议制定作为一项非解释性任务,占据了放射科医生大量工作时间。研究发现,协议制定占用了放射科医生工作日的6.2%,且常常成为影响影像解读的干扰源。随着MRI需求的持续增长,如何提高患者访问MRI的效率、减少等待时间,已成为医疗系统面临的重要挑战。

近年来,人工智能(AI)工具在辅助选择或确定放射学成像程序方面展现出巨大潜力。先前的研究主要集中在使用循环神经网络对脑MRI病例进行分类,或利用大型语言模型(LLM)预测最合适的成像 modality、解剖区域和对比剂应用需求。然而,这些研究大多局限于基于疾病名称添加单个MRI序列的场景,缺乏对完整序列级协议生成的评估。因此,本研究旨在填补这一空白,评估LLM基于真实临床病例生成精细化、序列级脑MRI协议的能力。

为了回答这些问题,研究人员开展了一项回顾性研究,使用来自当地影像申请表的150个脑MRI病例数据集。由两位神经放射学家建立参考协议,并测试了GPT-4o、o3-mini、DeepSeek-R1和Qwen2.5-72B四种最先进的LLM在两种条件下的表现:基础条件(无额外信息)和增强条件(通过上下文学习提供本地标准协议和序列解释)。此外,两位放射科住院医师也独立定义了MRI协议作为对比。研究采用准确性指数(冗余序列与缺失序列之和)作为主要性能指标,并通过配对t检验进行统计分析。

案例选择与参考协议建立

研究人员基于本地影像数据库中的真实患者病例,开发了150个虚构的脑MRI病例(德语)。通过对原始数据进行年龄偏移和位置替换等修改,确保完全匿名化。病例根据主要临床问题分为五类(血管性、肿瘤性、炎症性、退行性、杂项),并进一步区分为“典型”和“非典型”案例。两位经验丰富的神经放射学家独立为每个病例定义了合适的脑MRI协议,并确定了关键MRI序列(那些因临床相关性而必须包含的序列)。通过Cohen's kappa评估评估者间一致性,结果显示两位专家在所有MRI序列上达到96.0%的一致性(平均k=0.74),在关键序列上达到97.3%的一致性(平均k=0.75)。

LLM查询与性能评估

研究选择了开放权重和封闭权重两类最先进的LLM模型。通过迭代优化基础提示词,确保模型能够准确理解MRI序列名称和临床需求。在增强条件下,模型额外获得了20个本地标准脑MRI协议和27个可用MRI序列的临床指征解释。所有模型的输出均采用结构化JSON模式,以便程序化分析。性能评估通过计算冗余序列数、缺失序列总数和缺失关键序列数来进行,并以准确性指数作为总体指标。

处理时间与成本分析

研究人员记录了模型推理时间和API推理成本,并与放射科住院医师的协议制定时间和成本进行对比。结果显示,模型平均推理时间从5.5秒(GPT-4o增强)到18.4秒(o3-mini基础)不等,而住院医师的平均协议制定时间分别为51.0秒和42.0秒。模型推理成本每案例从0.006美元(GPT-4o基础)到0.021美元(DeepSeek-R1增强)不等,而住院医师的协议制定成本估计分别为0.594美元和0.489美元。

模型性能比较

在所有测试的LLM中,o3-mini表现出最优异的性能(基础:2.65±1.61;增强:1.94±1.25),其次是GPT-4o(基础:3.11±1.83;增强:2.23±1.48)和DeepSeek-R1(基础:3.42±1.84;增强:2.37±1.42)。Qwen2.5-72B的表现相对较差(基础:5.95±2.78;增强:2.75±1.54)。o3-mini在所有比较中均显著优于其他模型。所有四种模型在增强条件下均显示出高度显著的性能提升(调整后p<0.001)。性能最佳的LLM(o3-mini增强)达到了与住院医师相当的准确性水平(o3-mini增强:1.94±1.25,住院医师1:1.77±1.29,住院医师2:1.77±1.28)。

不必要对比剂应用

在增强条件下,Qwen2.5-72B的不必要对比剂应用案例显著减少(基础:33.3%,增强:23.3%),而DeepSeek-R1和GPT-4o则呈现相反趋势(分别从11.3%增加到18.0%,和从12.7%增加到18.0%)。o3-mini在对比剂应用方面保持稳定(基础与增强均为10.0%)。住院医师协议的不必要对比剂应用频率最低(分别为6.0%和9.3%)。

案例类型差异

协议制定的准确性因案例类型而异。在所有四种模型中,“退行性”案例的协议制定准确性最高(准确性指数基础:2.48,增强:1.73),而“血管性”案例(基础:4.34,增强:2.47)和“杂项”案例(基础:4.19,增强:2.80)的表现相对较差。

本研究证实了LLM在自动化脑MRI协议制定方面的潜力,特别是在通过上下文学习增强后,性能得到显著提升。o3-mini表现最佳,其次是GPT-4o。研究结果扩展了先前关于LLM在生物医学领域潜力的发现,特别是在(半)自动化成像协议方面。然而,在实现临床应用的道路上仍存在多个障碍需要克服。

首先,确保患者数据隐私保护的技术基础设施是任何LLM系统临床实施的前提。开放权重模型(如本研究中的DeepSeek-R1)为本地部署提供了可行选择。其次,LLM系统需要优化和测试以防止任何患者伤害。协议制定涉及排除特定成像程序的潜在禁忌症,这是一个安全关键方面,目前LLM尚无法可靠处理。此外,完全自动化和过度依赖自主决策系统带来的自动化偏倚(automation bias)风险也不容忽视。

另一个常见挑战是影像申请表中临床病史不足,这需要放射科医生额外手动审查电子医疗记录(EMR)。最近的研究探索了使用LLM评估临床病史完整性并通过挖掘EMR增补申请表的可能性。未来,能够自主协调多项任务的代理型LLM系统可能支持端到端的自动协议制定工作流程。

最重要的是,LLM工具在自动MRI协议制定中的临床整合取决于监管批准。指导或决定成像协议的MRI协议制定工具直接影响诊断和后续患者管理,因此受到严格监管。最近,首个基于LLM的临床决策支持工具在欧盟获得IIb类医疗器械认证,标志着生成式AI工具监管的重要里程碑。

值得注意的是,本研究通过上下文学习增强LLM,提高了协议准确性。随着具有扩展上下文窗口的LLM出现,大量信息可以直接通过上下文学习方法处理,无需复杂的检索架构,尽管这会增加计算资源成本。本研究中使用的外部文档仅包含4013个token,足以适配所有评估LLM的上下文窗口。轻松替换外部文档的选项可能允许无缝适应机构特定的协议制定标准。

有趣的是,非推理LLM GPT-4o的MRI协议制定性能仅略逊于o3-mini,且与最先进的推理LLM DeepSeek-R1相当。推理模型通过思维链(chain-of-thought)等技术将问题分解为更小的逻辑步骤,已知在复杂数学或逻辑推理任务中表现出色。与非推理LLM相比,它们据报道能更好地处理训练数据之外的任务,尽管处理时间增加。在临床环境中,这些结构化推理能力可能有助于提高透明度和可解释性,使临床医生能够更好地理解和验证模型输出。

本研究存在若干局限性。首先,为确保分析可行性,未考虑影响检查可评估性的特定MRI协议参数,如方向和切片厚度。其次,尽管具有不同的技术特性和在评估特定解剖结构或病理方面的诊断效用略有不同,但某些MRI序列(T1 MPRAGE和T1 Dixon,T2*和SWI)被视为可互换。第三,用于评估LLM协议制定性能的准确性指数隐含地给予冗余和缺失序列同等权重,尽管序列遗漏可能具有更大的临床意义。第四,温度参数在o3-mini中不受支持,因此无法在模型间完全标准化。第五,模型成本估算未考虑将这些工具集成到临床常规中的开销。最后,这是一项单中心研究,其发现需要在多样化临床环境中进行外部验证。

总之,我们证明了LLM在自动化脑MRI协议制定方面的潜力,特别是在通过本地协议标准增强时。o3-mini表现出最优性能,其次是GPT-4o。这些发现为减轻放射科医生工作负担、提高医疗效率提供了新的技术路径,也为生成式AI在医疗领域的应用开辟了新的方向。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号