GPT-4在MRI协议制定中的潜力与挑战:基于临床申请单的序列级生成与评估

《European Radiology》:Reply to the Letter to the Editor: The role of prompt engineering and referral completeness in evaluating GPT-4 for MRI protocols

【字体: 时间:2025年11月16日 来源:European Radiology 4.7

编辑推荐:

  本刊推荐:为解决大语言模型(LLM)在放射学临床应用中的可重复性与外部有效性问题,研究人员针对GPT-4基于放射学申请单(RRF)生成序列级MRI协议的主题展开研究。结果表明,采用工程化提示与零样本推理(zero-shot inference)的GPT-4能够生成临床可用的MRI协议,但在肌肉骨骼等指南不一致的亚专科中表现较弱。该研究强调了提示策略与指南标准化对LLM临床部署的重要性,并为构建两阶段工作流(先筛选不完整申请单,再生成协议)提供了依据。

  
在当今放射科日常工作中,磁共振成像(Magnetic Resonance Imaging, MRI)检查的申请单(Radiology Request Form, RRF)犹如临床医生递给放射科医生的一份“考卷”。上面书写的临床病史和检查目的,直接决定了放射科医生需要设计怎样的MRI扫描序列来“精准答题”。然而,这份“考卷”的质量参差不齐,有的信息详实,有的却含糊不清。另一方面,面对不同部位、不同疾病的MRI检查,放射科医生需要在大脑中快速调取并综合应用各种复杂的临床指南——例如美国放射学会(American College of Radiology, ACR)和欧洲骨骼放射学会(European Society of Skeletal Radiology, ESSR)发布的、有时甚至存在差异的建议,并结合本地的设备和实践习惯,最终制定出一套完整的、序列级别的扫描方案。这个过程高度依赖专家的经验和知识,既繁重又容易因疲劳或疏忽产生差异。
就在这样的背景下,人工智能领域迎来了颠覆性的技术——大语言模型(Large Language Model, LLM),尤其是OpenAI开发的GPT-4。它展现出的强大语言理解和推理能力,让研究人员看到了将其应用于自动化、标准化放射科工作流程的曙光。一个核心问题随之浮现:GPT-4能否像一位训练有素的放射科住院医师一样,仅凭RRF上的文字信息,就生成出可直接用于临床的、序列级别的MRI协议?如果可以,其准确性和可靠性又如何?这不仅是技术上的挑战,更关乎着未来人机协作的临床模式。Robert Terzis及其团队在《European Radiology》上发表的研究,正是为了回答这一前沿问题而展开的探索。
为了评估GPT-4的能力,研究团队设计了一套严谨的方法。他们从临床常规中收集了放射学申请单(RRF),但关键的第一步是排除了那些临床信息不足的申请单。这样做是为了将评估焦点集中在模型本身的能力上,而非输入信息的质量上。研究的核心在于“提示工程”(Prompt Engineering)。研究人员首先选取了4份具有代表性的RRF,通过12轮迭代,精心打磨出一条单一的指令。随后,他们通过重复运行这4份RRF各5次来验证最终提示的稳定性。在正式测试中,他们对100份测试集RRF中的每一份,都在独立的聊天会话中应用这条最终确定的提示,且不提供任何示例,这种方法被称为“零样本推理”(Zero-shot Inference)。他们将GPT-4生成的结果与放射科住院医师制定的方案进行比较,并由专家共识作为参考标准,从临床适用性、指南符合度等维度进行评价。
研究结果揭示了几个关键发现:
1. GPT-4具备生成临床适用MRI协议的能力
研究发现,在信息充分的RRF基础上,GPT-4能够生成在序列级别上具有临床适用性的MRI协议。这意味着模型不仅能理解临床问题,还能将其转化为具体的技术执行方案,展现了其作为临床决策支持工具的潜力。
2. 性能表现存在亚专科异质性
一个重要的发现是GPT-4的性能在不同放射亚专科之间存在差异。总体而言,其在肌肉骨骼成像(Musculoskeletal Imaging),特别是膝关节成像方面的表现相对较弱。这并非简单的模型能力不足,而是更深层次问题的反映。
3. 指南不一致性是关键挑战
研究人员指出,肌肉骨骼成像领域缺乏统一的指南是导致GPT-4在该领域表现不佳的主要原因。ACR和ESSR等权威机构发布的序列参数本身存在分歧,加之本地化实践模式的进一步影响,使得模型在没有明确、一致标准的情况下难以做出最优判断。专家共识也多次指出GPT-4生成的肌肉骨骼MRI协议中存在因指南不一致而产生的问题。
4. 提示策略与实验设计的权衡
针对评论者关于可能通过更精细的“提示工程”来提升性能的建议,作者阐明了他们的研究设计初衷:模拟真实的临床场景,即从零开始创建协议,而不预先提供特定的、本地批准的指南。他们认为,虽然后者可能提升在特定环境下的表现,但却会牺牲研究结果的普遍性(Generalizability),并掩盖“因指南不一致导致模型性能波动”这一核心发现。
5. 对未来工作流程的构想
研究团队承认不完整的RRF会严重影响LLM的性能,因此他们赞同将评估LLM在处理信息不足的RRF方面的能力作为下一步重点。他们提出了一个两阶段工作流的构想:首先利用LLM(如GPT-4)对RRF进行上游分诊(Upstream Triage),自动标记出信息不充分的申请单,提示放射科医生与临床医生沟通;只有当RRF信息充足时,才启动下游的序列级协议生成。他们引用新兴的“检查原因成像报告和数据系统”(Reason for Exam Imaging Reporting and Data System, RI-RADS)的研究作为支持,该系统已被证明能可靠地对转诊单的完整性进行分层。
归纳该研究的结论与讨论,其重要意义在于多维度的。首先,它实证了GPT-4在理想输入条件下(即信息完整的RRF)用于MRI协议生成的可行性,为后续应用奠定了基础。其次,它深刻地揭示了当前阻碍AI在放射学中深度应用的瓶颈之一——临床指南的标准化和统一性问题,尤其是在肌肉骨骼成像等领域。这提醒业界,AI模型的效能不仅取决于其算法,更依赖于其所学习的知识体系的质量和一致性。此外,研究强调了“提示工程”在LLM医学应用中的核心地位,并明确了“提示校准”与“推理过程”的区别,为未来研究提供了方法学上的参考。最重要的是,作者始终强调,这项研究的目的是用AI取代放射科医生,而是作为辅助工具。放射科医生在识别缺失信息、与临床医生沟通以及提供富有洞察力和同理心的护理方面,其角色仍然是不可或缺的。未来的方向是人机协作,让AI处理规范化的任务,而让医生专注于更复杂的决策和人文关怀。这项发表在《European Radiology》上的工作,无疑为放射学与人工智能的融合描绘了一幅更具象、更理性的发展蓝图。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号