基于BERT与LLM双阶段模型提升放射学报告中实体分类与关系映射的研究

【字体: 时间:2025年08月28日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对放射学报告中语言变异大、信息提取难的挑战,开发了一种结合BERT与大型语言模型(LLM)的双阶段自然语言处理(NLP)流程,用于实体分类和关系映射。研究利用超过40万份报告数据,在胸部CT和脑MRI报告中分别实现了77.39和70.58的宏F1分数,显著提升了诊断准确性和临床信息结构化能力,为AI辅助医疗决策提供了重要技术支持。

  

在人工智能(AI)技术飞速发展的今天,医疗影像分析领域正迎来一场前所未有的变革。放射学作为医学诊断中的重要分支,长期以来依赖专家对计算机断层扫描(CT)、X射线和磁共振成像(MRI)等影像的解读。然而,这一过程不仅耗时耗力,还深受语言变异性和报告叙事复杂性的困扰。放射学报告通常包含丰富的临床上下文和历史对比信息,但这些信息以自由文本形式存在,难以直接用于自动化分析或AI模型训练。尽管深度学习分类器在分析放射学图像方面展现出巨大潜力,但图像标注工作依然需要大量领域专业知识,且报告与图像之间的标注差异常常导致错误。

传统的信息提取方法多基于关键词规则,容易因语言变异产生误判。近年来,自然语言处理(NLP)技术的进步,特别是像双向编码器表示变换模型(Bidirectional Encoder Representations from Transformers, BERT)和生成式预训练变换模型(Generative Pre-trained Transformer, GPT)这样的语言模型(Language Model, LM),为更准确、上下文感知的信息提取提供了可能。例如,已有研究通过微调LM从放射学报告中分类肺癌治疗阶段,取得了与人类放射科医生相当的高准确性。大型语言模型(Large Language Model, LLM)也被用于从影像报告中提取结构化临床数据,改善病变特征和位置等信息的准确性。

然而,现有方法仍难以有效处理复杂任务,如匹配胸部CT报告中病变与解剖位置的关系,或评估脑MRI报告中癌症的时序变化。这类任务对于胸腔和神经系统成像至关重要,因为胸部CT是除X射线外最常进行的胸腔成像方式,能够详细显示肺实质、气道和血管结构,而脑MRI在检测神经系统异常(如肿瘤或动脉瘤)方面具有高敏感性。提取这些模态中的详细关系信息对于准确的临床评估和预后至关重要,需要通过精心设计的语言建模方法深入理解放射学叙事。

为此,Chaiho Shin、Dareen Eom、Sang Min Lee、Ji Eun Park、Kwangsoo Kim和Kye Hwa Lee等研究人员在《Scientific Reports》上发表了一项研究,旨在解决放射学报告分析中的这一关键空白。他们开发了一种双阶段NLP流程,结合BERT模型和LLM,以增强实体分类和关系映射的准确性。该流程首先使用BERT模型识别和分类报告中提到的临床相关实体(实体键分类阶段),然后将提取的实体输入LLM,以推断实体对之间的关系(关系映射阶段),同时考虑实体的实际存在情况(如否定描述)。研究聚焦于胸部CT中的病变-位置映射和脑MRI中的诊断-发作映射,这两者对于结构化放射学发现和捕捉疾病进展的时间模式具有重要意义。

研究利用了首尔峨山医学中心(Seoul Asan Medical Center)的超过40万份报告数据,通过这一流程在胸部CT和脑MRI报告中分别实现了77.39和70.58的宏F1分数。这些结果突显了整合BERT与LLM在提升放射学报告分析诊断准确性方面的有效性。

为开展这项研究,作者主要应用了几项关键技术方法。首先,他们基于临床数据仓库(Clinical Data Warehouse, CDW)和观察性医疗结果合作伙伴共同数据模型(Observational Medical Outcomes Partnership Common Data Model, OMOP CDM)数据库,构建了包含447,679份报告的大规模数据集,用于模型训练和验证。数据预处理包括去除符号、替换换行符和连续空格,并保留常用标点。其次,在实体键分类阶段,使用BERT模型进行监督式微调,结合掩码语言建模(Masked Language Modeling, MLM)预训练,以适应混合语言(韩语和英语)和医学术语。模型添加了词元级注意力层和密集层,用于多标签分类。第三,在关系映射阶段,采用开源LLM(Llama-3-8b)进行提示工程,无需额外训练,直接推断实体对关系。最后,通过规则基线方法(基于同一句子内共现)进行性能对比,并使用统计测试(如McNemar检验和bootstrap分析)评估模型显著性。

实体键分类性能

研究人员首先评估了实体键分类任务在报告级别的性能。结果显示,BERT模型在胸部CT病变提取中实现了98.9的最高召回率,但精度较低,导致准确性和F1分数分别为44.4和80.5。而结合BERT提取提示的LLM模型在所有指标上均表现优异,准确性达73.9,F1分数为93.4,特异性为79.6。在脑MRI诊断提取中,BERT模型准确性为80.6,F1分数为91.9,与结合BERT提示的LLM模型相当。这些结果表明,BERT模型在关键词检测方面具有高敏感性,但容易产生误报(9.4%的误报率),而LLM能够通过语义理解(如处理否定上下文)有效过滤误报。具体而言,在包含否定病变的报告中,BERT仅正确分类0.5%的样本,而双阶段流程正确分类73.1%,且统计测试显示双流程对否定上下文更具鲁棒性。

脑MRI非肿瘤诊断实体键分类性能

针对脑MRI中的非肿瘤诊断,研究人员对97份报告进行了详细实体键分类。其中,25份报告不包含任何非肿瘤诊断(如脱髓鞘、出血/血管病变、感染/炎症或卒中/梗死),而双阶段流程在第二次分类中正确识别了14份误报报告。混淆矩阵热图显示,除出血/血管病变(准确性76.29,F1分数72.29)外,其他诊断类别均实现高准确性(最低90.72)和F1分数(最低83.02)。这一改进归因于提示工程的优化,即从初步广泛识别转为针对特定诊断类型的精细分类。

关系映射性能

在关系映射任务中,胸部CT的病变-位置匹配整体宏平均准确性为56.13,F1分数为77.39。模型在肿块(mass)映射中表现最佳(F1分数89.55),在纤维化(fibrosis)映射中最低(F1分数64.00)。与规则基线相比,双阶段流程在所有病变类型和指标上均显著优于基线,宏平均F1分数提高约34.42点。规则基线虽在某些情况下精度较高,但召回率和准确性较低,表明其无法捕捉跨句子的关系。

脑MRI的诊断-发作匹配任务针对恶性肿瘤进行,整体宏平均准确性为63.12,F1分数为70.58。淋巴瘤(lymphoma)的映射性能最高(F1分数72.69),转移瘤(metastasis)最低(F1分数69.07)。与规则基线相比,双阶段流程在宏平均F1分数上提高31.06点,进一步验证了其上下文感知优势。

使用比较流程评估脑MRI报告中的患者进展

通过应用双阶段流程到OMOP CDM数据库中的27,028份报告,研究人员分析了患者随时间的变化。结果显示,每位患者平均有3.8份报告,报告间中位时间间隔为66天。流程过滤掉无非肿瘤诊断的报告后,对剩余报告进行发作映射,F1分数为70.58,召回率73.31。Sankey图直观展示了恶性肿瘤诊断的发作变化,其中转移瘤和胶质瘤多以进展发作开始,而淋巴瘤多以改善发作开始,且发作标签常随时间变化而非保持稳定。

讨论与结论

本研究通过双阶段NLP流程成功整合了BERT的词汇敏感性和LLM的深度上下文推理能力,显著提升了放射学报告中的实体分类和关系映射性能。统计测试证实,双流程在胸部CT和脑MRI数据上均显著优于单一模型,且对否定上下文更具鲁棒性。与现有方法(如CheXbert和CheX-GPT)相比,本研究在有限监督和数据量下实现了竞争性的F1分数(93.4),并采用开源LLM,避免了数据隐私和计算资源问题。

流程的另一个优势在于其多语言处理能力——无需翻译或语言规范化,即可有效处理混合语言报告(韩语和英语),表明其潜在泛化性。此外,流程无需人工标注关系标签,仅依赖少量关键词注释,即可灵活适配不同关系提取任务。

然而,研究也存在一定局限性,如性能受LLM规模约束(Llama-3-8b参数较少),未来可整合更大开源模型(如Llama-3.1 405B)以进一步提升表现。

总体而言,这项研究为AI辅助放射学报告分析提供了重要技术支持,通过结构化关键信息(如病变位置和疾病进展),支持临床决策和预后管理。未来工作包括验证跨机构泛化性、优化医院信息系统集成、解决数据不平衡问题,以及扩展至其他影像模态(如超声或核医学)。随着LLM技术的持续发展,这一方法有望在临床实践中实现广泛应用,最终提升医疗护理和研究的质量。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号