编辑推荐:
为提升基于 BERT 模型在神经放射学报告分类中的性能,研究人员开展相关研究,发现医院特异性领域适应可提高模型精度。
在医学领域,人工智能(AI)进行计算机视觉分类任务通常需要大量训练标签。在放射学中,训练标签可由放射科医生查看图像获得,也能从报告中提取,但这一过程需要专业领域知识,资源稀缺且成本高昂。自动化报告分类方法既能解决这一难题,还能带来临床益处,比如帮助放射科医生优先审查异常报告、用于临床审计以及为 AI 图像分类模型提供训练标签等。而在这些应用中,准确性至关重要,错误分类可能导致严重后果。
为了解决这些问题,来自英国伦敦国王学院(King’s College London)等机构的研究人员开展了一项研究。他们利用两家英国三级医院 —— 国王学院医院(KCH)和盖伊与圣托马斯医院(GSTT)的大量 MRI 脑部报告,对多种基于 BERT 的模型进行训练和评估。研究旨在确定医院特异性领域适应(通过掩蔽语言建模(MLM))对基于 BERT 模型在神经放射学报告分类中的性能影响,并将这些模型与开源大语言模型(LLMs)进行比较。该研究成果发表在《European Radiology》上。
研究人员采用了多种关键技术方法。首先,收集了 2008 - 2019 年期间 KCH 的 126,556 份和 GSTT 的 86,032 份连续去标识化放射学报告。其次,对报告进行预处理,去除重复报告和患者可识别信息。然后,创建了不同的模型变体,包括基线模型、单站点领域适应模型和多站点领域适应模型,并使用 MLM 对未标记报告进行领域适应训练。之后,利用标记报告对模型进行微调,用于二元异常分类和多标签分类任务。最后,对模型进行测试,并与传统的词袋(BoW)模型和 LLMs 进行比较。
研究结果如下:
- 模型训练时间:MLM 在 KCH 和 GSTT 数据集(194,467 份报告)上训练需要 23 - 71 小时,在 KCH 数据集(108,726 份报告)上训练需要 11 - 59 小时。微调一个模型进行二元分类约需 10 分钟,多标签分类约需 3 分钟。LLM 推理通常总共不到 15 分钟,但不同模型所需 GPU 数量不同。
- 二元异常分类性能:所有经过医院特异性领域适应的模型在二元分类任务上的表现均优于其基线模型。MLM 使用所有可用的未标记报告(194,467 份)时,平衡准确率最高(KCH:平均 97.0 ± 0.4%,GSTT:95.5 ± 1.0%)。没有领域适应时,生物医学和放射学 BERT 基模型表现更好;经过 MLM 后,不同 BERT 基模型之间差异消失。在外部测试集上,除 Llama - 3.0 70B 外,LLMs 表现不如领域适应的 BERT 基模型;在单站点场景中,Llama - 3.0 70B 表现优于部分 BERT 基模型,多站点场景中,其在外部测试集表现稍逊。BoW 模型在 KCH 测试集表现最差,但在 GSTT 测试集上与未进行医院特异性领域适应的 BERT 基模型相当。
- 消融研究:对于二元异常分类,MLM 数据集的选择和报告数量对模型性能有影响,报告数量(对数转换后)解释了大部分性能差异,即使少量未标记报告(1000 份)也能提升 RoBERTa 模型性能。要达到与 442 万域外报告相同的平衡准确率,KCH 和 GSTT 测试集分别需要 5633 份和 12,267 份域内 KCH 报告。
- 多标签分类性能:在多标签分类任务中,经过医院特异性领域适应的模型在所有异常类别上的表现均优于基线模型。“血管” 和 “肿块” 病变分类最具挑战性,领域适应有助于应对复杂病理和中心特定诊断标准带来的挑战,但由于微调报告数量有限,模型性能可能未达饱和。
研究结论和讨论部分指出,医院特异性领域适应是在目标领域(如英国三级神经放射学中心的 MRI 脑部报告)进行 MLM 的额外中间步骤。对于二元异常分类,使用所有可用未标记报告进行 MLM 可获得最高平衡准确率,且各 BERT 基模型均优于其基础模型;对于多标签异常类别分类,即使少量报告(547 份)微调也能带来性能提升。研究还发现,与 442 万美国一般放射学报告相比,使用 194,467 份本地 MRI 脑部报告进行 MLM 可获得更好性能,且不到 15,000 份本地报告就足以实现可比性能。Llama - 3.0 70B 是表现最好的 LLM,但在外部测试集上性能略低于经过领域适应的 BERT 基模型。
这项研究为在临床环境中部署基于 BERT 的模型提供了重要参考。医院特异性领域适应应被视为最佳实践,即使从与目标领域匹配的 BERT 基模型进行微调,也能提升性能。虽然 LLMs 在无额外语言建模或微调时表现出色,但存在提示依赖、提示工程复杂等问题。而基于 BERT 的模型经过领域适应后,在外部测试集上表现更优,且微调遵循既定深度学习管道,无需提示工程专业知识,具有重要的临床应用价值。