弱监督语言模型:从放射学报告中自动提取关键发现的创新突破

【字体: 时间:2025年05月09日 来源:npj Digital Medicine 12.4

编辑推荐:

  在放射学报告关键发现提取面临挑战的情况下,研究人员开展基于弱监督语言模型(LLMs)的相关研究。结果显示,该模型在多数据集测试中表现良好,能有效提取关键发现,有望改善患者诊疗,提高医疗效率。

  在医疗领域,放射学报告是医生了解患者病情的重要依据。其中,关键发现对于患者的及时治疗至关重要,它往往涉及到威胁生命的状况,需要迅速传达给医生。然而,放射学报告存在诸多问题。一方面,报告冗长,结构和格式缺乏一致性,术语使用、观察和发现的呈现顺序以及细节程度都差异很大,这给回顾性分析和质量保证带来极大困难。另一方面,之前的研究方法,如基于规则的文本挖掘和临床 BERT - 基于的模型,都存在局限性。前者适用范围窄,难以推广到外部数据;后者应用范围受限,只能判断报告是否包含关键发现,无法提取具体类别。随着自然语言处理(NLP)技术的发展,大语言模型(LLMs)展现出强大的文本理解和检索能力,但在关键发现提取领域,标注数据稀缺,限制了模型的训练和应用。
为了解决这些问题,来自美国亚利桑那州梅奥诊所(Mayo Clinic Arizona)、斯坦福大学等机构的研究人员开展了一项关于从放射学报告中自动提取关键发现的研究。他们提出了一种端到端的管道,利用弱监督和特定任务指令训练的 Mistral 类模型,实现关键发现的自动识别和分类提取。该研究成果发表在《npj Digital Medicine》上,为医疗领域的智能化发展提供了重要支持。

研究人员采用了多种关键技术方法。首先,针对缺乏标注数据的问题,他们提出了两阶段弱监督训练方法。在第一阶段,利用指令调整的预训练 Mistral - 7B 和 BioMistral - 7B 模型,通过零样本和少样本提示技术,以无监督方式从放射学报告中提取关键发现作为弱标签。第二阶段,使用这些弱标签对 Mistral 模型进行微调。其次,为了更全面地识别关键发现,他们手动整理并通过本体扩展创建了包含 210 个关键发现术语的综合列表。最后,采用基于人类和基于 LLM 的评估指标,在内部梅奥诊所数据集和外部 MIMIC - III、MIMIC - IV 数据集上对模型性能进行评估。

研究结果主要通过以下几方面呈现:

  • 数据集:收集了梅奥诊所不同模态和解剖部位的放射学报告作为内部数据集,同时选取了公开的 MIMIC - III 和 MIMIC - IV 数据集中的报告作为外部数据集。内部数据集用于模型微调与评估,外部数据集用于测试模型的泛化能力。
  • 定量性能:在小规模内部和外部验证数据集上,弱监督微调后的 Mistral 和 BioMistral 模型表现优于预训练基线模型,且微调后的 Mistral 模型性能更优。在内部梅奥测试集上,微调后的 Mistral 模型 Rouge - 2 得分达到 48%;在外部 MIMIC - III 测试报告中,该模型 Rouge - 2 得分达 59%。此外,基于 LLM 的评估指标在大规模 MIMIC - IV 数据集上的评估结果与基于人类标注的小规模测试数据集的重叠度量结果相似,表明基于 LLM 的评分算法在大规模验证任务中有应用潜力。
  • 错误分析:模型在处理明确标注关键发现的报告时表现较好,但在处理包含慢性关键发现或否定关键发现的句子时存在不足。例如,对于 “No significant interval change...” 这类句子,模型可能无法准确判断;对于仅报告关键发现不存在的句子,模型可能会误判为阳性。

研究结论表明,弱监督模型在从放射学报告中提取关键发现的任务上优于预训练的 LLMs。虽然生物医学领域的 BioMistral 模型在评估指标上得分较低,但通用领域的 Mistral 模型表现更优,且少样本提示技术有助于提高模型的提取性能。此外,研究发现模型在较短报告长度的数据集上表现更好,而梅奥诊所数据集报告长度较长且包含较多否定句子,影响了模型性能。

该研究具有重要意义。它为从放射学报告中自动提取关键发现提供了新的解决方案,减少了人为错误,有助于及时发现严重疾病,如肿瘤、骨折或内出血等,从而实现更及时、恰当的治疗。同时,该系统在回顾性数据分析方面也具有潜力,能避免重要健康问题被忽视。不过,研究也存在局限性,如模型性能仍需进一步提升,部分罕见关键发现可能未被捕获,且未考虑部分术语匹配等问题。未来研究可在这些方面进行改进,以推动医疗领域的智能化发展,为提高患者的诊疗效果和医疗质量提供更有力的支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号