《Journal of Vascular Surgery》:Large language models accurately extract aortic information from abdominal imaging reports in a large, real-world database
编辑推荐:
自然语言处理技术通过Llama 3.3 70B模型成功提取了跨17年16,331份腹部影像报告的AAA直径数据,准确率达0.93,F1-score达0.96,验证了LLM在无专门训练下实现标准化影像数据解析的可行性。
科琳·P·弗拉纳根(Colleen P. Flanagan)|劳伦斯·D·格斯特利(Lawrence D. Gerstley)|史蒂文·奥库恩(Steven Okuhn)|迈拉·麦克莱农(Myra McLenon)|伊丽莎白·M·兰开斯特(Elizabeth M. Lancaster)|米凯拉·M·赫尔(Michaela M. Hull)|马赫什·S·布尔布尔(Mahesh S. Bulbule)|纳扬·西瓦穆尔蒂(Nayan Sivamurthy)|罗伯特·W·张(Robert W. Chang)
摘要
目的
维持针对腹主动脉瘤(AAA)的严密监测计划非常重要,但这些计划成本高昂且劳动密集,通常需要经过培训的医疗专业人员手动审查数据。研究表明,自然语言处理(NLP)软件可以帮助完成这些任务,但每种特定任务的算法在使用前都需要人工指导的训练。我们的目标是评估使用大型语言模型(LLM)通过通用人工智能提取与AAA相关数据的可能性,从而无需进行任务特定的训练。
方法
本研究选取了2008年至2024年间从凯撒永久医疗集团(Kaiser Permanente Northern California, KPNC)区域综合医疗系统中的AAA监测登记库中随机选取的超声(US)和横截面(计算机断层扫描[CT]、磁共振[MR])腹部影像报告进行人工审核。Llama 3.3 70B(Meta)模型在医疗系统的防火墙后端的本地Ollama服务器上运行,未使用外部遥测技术。该模型从每份放射学报告中提取腹主动脉的最大直径;如果未提及直径,则通过解读描述性术语来判断报告是否显示AAA阳性/阴性,或者无法确定动脉瘤的状态(未知)。这些数据与独立专家评审员提取的结果进行了比较,以评估准确性、敏感性(召回率)、阳性预测值(PPV)、精确度(precision)和F1分数(精确度和召回率的调和平均值)等标准机器学习指标。
结果
共有16,331份经过人工专家审核的腹部影像报告,涉及11,799名患者,被纳入LLM分析。其中6,102份为超声检查(37.4%),10,229份为横截面检查(62.6%)。横截面检查包括CT(81.9%)、MRI(12.5%)和PET-CT(5.6%)。模型在各项指标上的表现分别为:总体准确率为0.93,敏感性(召回率)为0.96,阳性预测值(PPV)为0.96,F1分数为0.96。在腹主动脉最大直径介于3至7厘米之间的病例中,模型的F1分数为0.97-0.99。
结论
LLM能够从腹部影像报告中可靠地提取主动脉信息,且无需额外的人工指导训练。总体而言,LLM能够以最少的人力成本实现灵活高效的数据挖掘。许多LLM都是公开可用的,且无需处理费用,因此它们是降低复杂AAA监测登记管理工作负担的便捷且经济有效的工具,同时还有机会提高该领域临床研究的质量和效率。
章节摘录
引言
腹主动脉瘤(AAA)通常在出现症状之前就被发现,但一旦破裂,死亡率超过80%。1一些无症状的腹主动脉瘤是在针对高风险人群的筛查项目中发现的(“显性”筛查),而另一些则是在进行非筛查目的的腹部影像检查时偶然发现的(“隐性”筛查)。2,3在美国,医疗保险受益人会接受针对AAA的强制性筛查。
前瞻性动脉瘤登记库
这是一项针对凯撒永久医疗集团北加州(KPNC)区域综合医疗网络内前瞻性维护的登记库中包含的超声和横截面影像报告的回顾性研究,时间跨度为2008年至2024年。这些报告由19个医疗中心的300多名放射科医生完成;该系统服务于超过450万名成员。
该登记库是一个全系统范围内的、由护士监督的项目的一部分,该项目始于
结果
共有16,331份经过人工专家审核的腹部影像报告,涉及11,799名患者,被纳入LLM分析。其中6,102份为超声检查(37.4%),10,229份为横截面检查(62.6%)。横截面检查包括CT(81.9%)、MRI(12.5%)和PET-CT(5.6%);60.8%的横截面检查使用了静脉造影剂。与黄金标准的专家评审相比,人工评审员的平均准确率为0.92。
总体而言
讨论
本研究表明,一个基础性的、现成的、免费使用的大型语言模型能够从真实世界数据库中的腹部影像报告中可靠地提取重要的主动脉信息。该数据库包含了超过16,000份经过人工验证的报告,时间跨度为15年,涉及300名放射科医生和19个医疗中心。尽管报告的口述风格、格式和动脉病变存在差异,LLM的表现依然非常出色。