基于PubMedBERT的自然语言处理模型在肾脏活检病理诊断提取中的开发与验证

【字体: 时间:2025年06月17日 来源:Kidney Medicine 3.2

编辑推荐:

  本研究针对肾脏活检报告非结构化文本导致诊断信息提取效率低下的问题,开发了基于PubMedBERT的NLP算法,在3042份活检报告中实现平均AUROC 0.95的高精度诊断分类,为构建自动化肾脏疾病注册系统提供关键技术支撑。

  

肾脏疾病诊断的金标准——肾脏活检报告长期以非结构化文本形式存储在电子健康记录(EHR)中,临床医生和研究人员需要耗费大量时间进行人工提取。这种低效的数据处理方式严重制约了肾脏疾病流行病学研究和临床试验患者招募。尤其值得注意的是,某些肾小球疾病如狼疮性肾炎(LN)在少数族裔中发病率显著增高,而传统方法难以及时识别这些高危人群。

针对这一临床痛点,休斯顿卫理公会医院的研究团队Shane A. Bobart等人在《Kidney Medicine》发表重要研究成果。他们创新性地将自然语言处理(NLP)技术应用于肾脏活检报告分析,开发出基于PubMed Bidirectional Encoder Representations from Transformers (BERT)的深度学习模型。这项研究纳入了2666名患者的3042份原生肾脏活检报告,涵盖从糖尿病肾病(DKD)到罕见病如免疫触须样肾小球肾炎等42种病理诊断。

研究采用多模块技术路线:首先通过正则表达式分割报告章节,使用PubMedBERT进行文本嵌入和特征提取;随后构建包含12层自注意力机制的分类模型;最终通过后处理模块实现多标签诊断预测。特别值得注意的是,团队采用80/20比例划分训练集(n=2434)和测试集(n=608),并引入早期停止机制优化模型性能。

研究结果显示,该NLP系统展现出卓越的诊断识别能力:

  1. 整体性能:模型在所有诊断中的平均AUROC达到0.95,对20种常见诊断(AUROC 0.97)和5种主要肾小球疾病(F1>0.9)表现尤为突出。
  2. 具体疾病识别:糖尿病肾病(DKD)的识别精确度达0.869,召回率0.986;狼疮性肾炎(LN)的F1分数高达0.949;IgA肾病更实现完美召回率(1.0)。
  3. 罕见病识别:即使是发病率仅0.4%的抗GBM肾炎,模型也展现出1.0的特异性。

讨论部分强调,这是美国首个大规模应用Transformer架构处理肾脏活检报告的研究。相比德国和加拿大的前期工作,本研究样本量更大(3042 vs 1100/1291)、诊断类别更全面(42 vs 主要病种),且首次在多元族裔人群(29%黑人,23%西班牙裔)中验证模型性能。研究者特别指出,模型表现存在诊断依赖性——常见病(如DKD、LN)的F1分数显著高于罕见病(如C1q肾病0.667),这提示未来需要扩大罕见病样本量进行模型优化。

该研究的临床转化价值显著:首先,相比人工提取,NLP算法可实现近40倍效率提升;其次,模型输出的结构化数据可直接用于构建动态更新的肾脏病注册系统;最后,该系统能有效识别临床试验目标人群,特别是解决少数族裔代表性不足的问题。正如作者所述,这项技术不仅为肾脏病流行病学研究提供新工具,更将加速精准医学时代肾小球疾病的药物研发进程。未来工作需要验证模型在不同医疗机构的泛化能力,并探索提取更多病理细节(如足突融合程度)的应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号