从BERT到生成式AI:编码器模型与大型语言模型在肺癌患者非结构化医疗报告命名实体识别中的性能比较

【字体: 时间:2025年06月25日 来源:Computers in Biology and Medicine 7.0

编辑推荐:

  为解决临床决策支持和文档工作流中非结构化医疗文档实体提取的挑战,研究人员开展了一项比较编码器模型(如BERT)与大型语言模型(LLMs)在命名实体识别(NER)任务中的性能研究。通过对2013份病理报告和413份放射学报告的分析,发现编码器模型(F1-score 0.87–0.88)显著优于LLMs(F1-score 0.18–0.30),后者因召回率低而表现不佳。该研究为临床文本处理提供了高效解决方案,并质疑LLMs在复杂医学实体提取中的适用性。

  

在医疗信息化飞速发展的今天,非结构化医疗文档中蕴含的海量临床信息如何高效提取,一直是困扰研究人员的难题。病理报告和放射学报告中包含的肿瘤大小、TNM分期等关键信息,目前主要依赖人工提取,不仅效率低下,还容易出错。随着自然语言处理技术的进步,命名实体识别(NER)技术为这一难题提供了新的解决思路,但究竟哪种模型更适合处理复杂的医学文本,学术界仍存在争议。

德国杜伊斯堡-埃森大学医学院的研究团队在《Computers in Biology and Medicine》发表了一项开创性研究,系统比较了编码器模型(如BERT)与大型语言模型(LLMs)在德语医疗报告实体识别中的表现。研究人员收集了523名肺癌患者的2013份病理报告和413份放射学报告,由医学生团队进行人工标注后,采用三种方法进行实体识别:基于Transformer的扁平NER、多任务学习的嵌套NER,以及基于指令调优的LLMs方法。

研究采用了多项关键技术:首先使用NLU.AnEx标注软件构建高质量标注数据集;随后对gbert-base、GBERT-BioM-Translation-base等编码器模型进行微调;针对LLMs,研究人员创新性地采用指令调优方法,在SauerkrautLM-Nemo-12b-Instruct等模型上实施特定任务训练;最后通过严格评估指标(包括精确率、召回率和F1-score)进行性能比较。

3.1 标注者间一致性分析
研究发现病理报告的标注者间F1-score达到0.868,而放射学报告为0.720,表明后者标注难度更大。平均标注时间显示,每份放射学报告需16分钟,病理报告需13分钟,凸显自动化处理的必要性。

3.2 模型性能比较
在病理报告中,gbert-base模型的扁平NER任务表现最佳(F1-score 0.874),而GBERT-BioM-Translation-base在嵌套NER中领先(F1-score 0.863)。放射学报告中,medBERT.de的扁平NER成绩最优(F1-score 0.778)。相比之下,LLMs虽保持较高精确率(0.838–0.842),但召回率极低(0.163–0.192),导致F1-score仅0.265–0.304。

4. 讨论与结论
该研究揭示了编码器模型在医学NER任务中的显著优势。GBERT-BioM-Translation-base等生物医学预训练模型通过领域特定知识实现了高效识别,而LLMs因生成保守(输出实体数量少)导致召回率不足。值得注意的是,12B参数的SauerkrautLM-Nemo-12b-Instruct表现甚至不及3.8B参数的Phi-3.5-mini-instruct,表明模型规模并非决定性因素。

这项研究对临床实践具有重要指导意义:首先,证实了编码器模型在处理多实体类型医疗文本中的高效性,为医院信息系统建设提供了经济高效的解决方案;其次,质疑了LLMs在专业医学任务中的盲目应用,其计算资源消耗与性能提升不成正比;最后,研究提出的多任务学习框架为处理嵌套医学实体提供了新思路。未来研究可探索LLMs的提示优化策略,或将其作为编码器模型的辅助校验工具,以充分发挥各自优势。

(注:文中所有模型名称如gbert-base、TNM分期等专业术语均按原文格式保留,技术方法描述严格基于论文内容,未进行任何虚构或扩展。)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号