《Journal of the American College of Radiology》:Use of Large Language Models on Radiology Reports: A Scoping Review
编辑推荐:
LLMs在放射学中的应用及挑战:系统回顾69篇文献发现,LLMs在报告简化、翻译等流程优化任务中表现突出,但分类任务准确率差异大(36%-80%)。微调和大纲提示可提升准确性,但仅47%研究验证数据集独立性,且处理模型随机性不足。研究强调需加强验证和减少偏差,以促进LLMs在临床决策支持等领域的负责任应用。
Ryan C. Lee | Roham Hadidchi | Michael C. Coard | Yossef Rubinov | Tharun Alamuri | Aliena Liaw | Rahul Chandrupatla | Tim Q. Duong
纽约布朗克斯蒙特菲奥雷医疗中心和阿尔伯特·爱因斯坦医学院放射科
摘要
大型语言模型(LLMs)在放射学领域的应用日益广泛,它们有潜力优化临床工作流程、提高诊断准确性并支持患者沟通。在这篇综述中,作者探讨了LLMs在放射学文本中的当前和新兴用途,重点关注报告生成、结构化数据提取、工作流程优化和临床决策支持等方面。通过对PubMed和Embase的文献检索,共纳入了69篇文章。文章评估了现有方法的能力和局限性,并讨论了关键的方法学问题,包括透明度和偏见问题,同时指出了验证和泛化能力方面的关键差距。总体而言,LLMs在报告简化和翻译等工作中表现出色,但在分类任务中的效果参差不齐。某些方法(如微调和结构化提示生成)提高了LLMs的准确性。在评估纳入的研究时,尽管大多数研究在记录测试数据和训练数据的独立性以及LLM提示方法方面做得不错,但不到一半的研究明确尝试管理LLMs的固有随机性。通过综合近期进展并概述未来方向,本文旨在指导临床医生、研究人员和医疗保健利益相关者负责任地利用LLMs在放射学护理中的变革潜力。
引言
过去二十年里,由于技术进步、临床应用范围的扩大、人口老龄化及合并症情况的增加以及防御性医疗策略的普及,对放射成像的需求持续增长[1]。这些诊断测试对临床决策过程至关重要。医学影像结果的沟通通常由放射科医生通过口述生成半结构化的自由文本报告来完成。由于不同个体和机构之间的报告风格差异较大,这些半结构化报告通常不适合使用传统的数据挖掘方法。而结构化报告在提高报告自动化分析和处理方面具有更大潜力,但只有少数机构采用了这种方法。
大型语言模型(LLMs)是由数十亿参数组成的深度神经网络,通过对大量文本数据(如整个互联网内容)进行训练而开发出来的。它们通过自监督学习过程学会预测序列中的下一个词元(例如单词或子词),从而能够学习复杂的模式、语法和上下文,适用于多种自然语言处理任务。现代LLMs的基础技术是Transformer架构,该架构采用了“注意力”机制[2]。与传统的顺序处理模型不同,Transformer机制能够同时考虑序列中所有单词的重要性,显著提升了它们理解长距离依赖关系和复杂上下文的能力。
自2018年引入双向编码器表示(BERT)以来,这种架构催生了越来越强大的模型[3]。Transformer概念不断发展,著名的LLMs包括OpenAI的ChatGPT[4]和Google的Gemini[5]。这项技术也被应用于医学等特定领域。例如,LLMs可以用于分析自由文本的放射学报告,由于自然语言的模糊性(例如“ventricle”一词根据上下文可能指代不同的解剖结构),这类报告历来难以处理[6]。通过准确提取临床相关信息并生成摘要,LLMs在放射学中具有优化临床工作流程、辅助决策、与患者沟通以及促进研究的潜力。
已有几篇综述研究了LLMs在放射学中的应用;然而,大多数综述的范围有限,仅关注少数几种模型,或者没有涵盖最新的应用,如临床决策和协议制定任务[7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18](补充表1)。此外,该领域发展迅速,最新的综述很快就会过时。鉴于LLMs能力的快速提升及其在放射学中角色的不断扩大,有必要进行一次全面且最新的综述,以梳理当前研究进展、识别知识空白并指导未来的研究方向。
本文旨在系统地概述LLMs在放射学实践中的当前和新兴应用,重点关注其能力、局限性及临床影响。通过综合报告生成、结构化数据提取、工作流程优化、临床决策支持和患者沟通等领域的最新进展,我们希望为放射科医生、信息学家和医疗保健利益相关者提供清晰的认识,了解LLMs如何改变这一领域。
方法
这篇综述的完成时间非常紧迫,仅用了15周。尽管时间紧迫,整个过程仍保持了系统的严谨性和方法学的完整性。综述遵循《系统评价和元分析扩展:范围评价的优先报告条目》(图1,补充表2)[19]进行。2025年3月23日对PubMed和Embase数据库进行了文献检索,共纳入了相关文章。
结果
通过PubMed和Embase的检索共发现了217篇独特文章。经过摘要审查后,有138篇文章因以下原因被排除:文章为预印本(n = 9);文章非英文撰写(n = 3);文章为会议摘要、协议论文或致编辑的信件(n = 40);文章为综述或观点文章(n = 36);或者研究内容与LLMs在放射学报告或相关文本中的应用无关。
结果的主要发现
研究表明,LLMs在放射学中的表现并不一致,很大程度上取决于所选模型、具体临床任务和交互方式。通过精心设计的提示(如提供上下文、角色扮演指令或结构化输出格式),可以显著提升LLMs的性能[35, 70]。然而,对于更为专业和临床要求更高的任务,证据表明对模型进行微调通常能带来更好的效果。
总结要点
- ?
尽管LLMs在提高报告可读性等方面表现出强大能力,但其在不同任务中的准确性和可靠性存在差异。例如,分类任务的准确率在36%到80%之间变化,而将其翻译成资源匮乏的语言时结果也不稳定。
- ?
研究表明,经过微调的LLMs通常能生成更高保真度的输出,尤其是在结构化报告和临床分类方面。同样,使用结构化提示也能提升LLMs的性能。