
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于PubMedBERT的自然语言处理模型在肾脏活检病理诊断提取中的开发与验证
【字体: 大 中 小 】 时间:2025年06月17日 来源:Kidney Medicine 3.2
编辑推荐:
本研究针对肾脏活检报告非结构化文本导致诊断信息提取效率低下的问题,开发了基于PubMedBERT的NLP算法,在3042份活检报告中实现平均AUROC 0.95的高精度诊断分类,为构建自动化肾脏疾病注册系统提供关键技术支撑。
肾脏疾病诊断的金标准——肾脏活检报告长期以非结构化文本形式存储在电子健康记录(EHR)中,临床医生和研究人员需要耗费大量时间进行人工提取。这种低效的数据处理方式严重制约了肾脏疾病流行病学研究和临床试验患者招募。尤其值得注意的是,某些肾小球疾病如狼疮性肾炎(LN)在少数族裔中发病率显著增高,而传统方法难以及时识别这些高危人群。
针对这一临床痛点,休斯顿卫理公会医院的研究团队Shane A. Bobart等人在《Kidney Medicine》发表重要研究成果。他们创新性地将自然语言处理(NLP)技术应用于肾脏活检报告分析,开发出基于PubMed Bidirectional Encoder Representations from Transformers (BERT)的深度学习模型。这项研究纳入了2666名患者的3042份原生肾脏活检报告,涵盖从糖尿病肾病(DKD)到罕见病如免疫触须样肾小球肾炎等42种病理诊断。
研究采用多模块技术路线:首先通过正则表达式分割报告章节,使用PubMedBERT进行文本嵌入和特征提取;随后构建包含12层自注意力机制的分类模型;最终通过后处理模块实现多标签诊断预测。特别值得注意的是,团队采用80/20比例划分训练集(n=2434)和测试集(n=608),并引入早期停止机制优化模型性能。
研究结果显示,该NLP系统展现出卓越的诊断识别能力:
讨论部分强调,这是美国首个大规模应用Transformer架构处理肾脏活检报告的研究。相比德国和加拿大的前期工作,本研究样本量更大(3042 vs 1100/1291)、诊断类别更全面(42 vs 主要病种),且首次在多元族裔人群(29%黑人,23%西班牙裔)中验证模型性能。研究者特别指出,模型表现存在诊断依赖性——常见病(如DKD、LN)的F1分数显著高于罕见病(如C1q肾病0.667),这提示未来需要扩大罕见病样本量进行模型优化。
该研究的临床转化价值显著:首先,相比人工提取,NLP算法可实现近40倍效率提升;其次,模型输出的结构化数据可直接用于构建动态更新的肾脏病注册系统;最后,该系统能有效识别临床试验目标人群,特别是解决少数族裔代表性不足的问题。正如作者所述,这项技术不仅为肾脏病流行病学研究提供新工具,更将加速精准医学时代肾小球疾病的药物研发进程。未来工作需要验证模型在不同医疗机构的泛化能力,并探索提取更多病理细节(如足突融合程度)的应用潜力。
生物通微信公众号
知名企业招聘