AKI-BERT:面向急性肾损伤早期预测的疾病特异性临床语言模型研究
《BMC Medical Informatics and Decision Making》:AKI-BERT: a pre-trained clinical language model for early prediction of acute kidney injury
【字体:
大
中
小
】
时间:2025年11月07日
来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
本研究针对ICU患者急性肾损伤(AKI)早期预测的临床需求,开发了疾病特异性预训练语言模型AKI-BERT。研究人员通过在大规模临床笔记上对BERT模型进行领域自适应训练,显著提升了AKI预测性能(AUC达0.762),为挖掘非结构化临床文本中的预警信号提供了新方法,对改善重症患者预后具有重要临床意义。
在重症监护室(ICU)中,急性肾损伤(AKI)是一种常见且危重的临床综合征,其特征是肾功能在数小时或数天内突然恶化。AKI不仅会导致住院时间延长,还会增加患者出院后的并发症风险和早期死亡率。目前,临床上主要依靠血清肌酐(SCr)作为AKI的诊断标志物,但这是一个相对滞后的指标。而治疗的有效性很大程度上取决于对AKI的早期预测,这使得开发AKI早期识别方法变得至关重要。
电子健康记录(EHR)中的非结构化临床笔记包含了丰富的患者信息,如家族史、社会关系、医师评述等,这些细节在结构化记录中通常难以获取,但可能暗示着AKI等疾病的发作和进展。然而,从非结构化文本中提取预测信息充满挑战。近年来,像BERT(Bidirectional Encoder Representations from Transformers)这样的上下文词嵌入模型通过迁移学习在许多自然语言处理(NLP)任务中取得了巨大成功。尽管已有研究探索了BERT在生物医学或一般临床文本中的应用(如BioBERT和Clinical BERT),但AKI相关的临床笔记在语言特征上可能与一般临床文本存在差异。一个简单的逻辑回归模型就能以95%的准确率区分AKI相关笔记和一般临床笔记,这激发了开发针对AKI的疾病特异性BERT模型的必要性。
为了应对这一挑战,Mao等人开展了名为“AKI-BERT: a pre-trained clinical language model for early prediction of acute kidney injury”的研究,并发表在《BMC Medical Informatics and Decision Making》期刊上。这项研究旨在探索如何将BERT模型应用于疾病特异性医学领域任务——AKI的早期预测。
研究人员开发了一种领域特异性的预训练语言模型AKI-BERT,其核心方法包括三个关键步骤。首先,他们在从AKI风险患者中提取的临床笔记上,对已有的公开预训练BERT模型(如BERT-base、BioBERT、Bio+Clinical BERT)进行进一步预训练,从而得到AKI-BERT模型。其次,他们利用带有标签的训练笔记对AKI-BERT进行任务特定的微调,用于AKI早期预测。最后,使用微调后的模型根据患者的临床笔记预测其发生AKI的概率。研究使用的数据来源于Medical Information Mart for Intensive Care III (MIMIC-III)数据集,并依据KDIGO指南定义AKI标签。为了处理长临床笔记(通常超过BERT的512个标记限制)和类别不平衡问题,研究采用了句子级池化(如MaxPooling)和多种数据平衡策略(如分层批次采样SBS、下采样DS、上采样US)等技术方法。
AKI-BERT模型在AKI早期预测任务上表现出优于通用领域和临床领域预训练模型的性能。在多种实验设置下(如SBS+Pooling, DS+Pooling等),AKI-BERT的变体(AKI-BC-BERT, AKI-BioBERT, AKI-baseBERT)在曲线下面积(AUC)和F1分数等指标上普遍优于其对应的基础BERT模型(如BC-BERT, BioBERT, BERT-base)。例如,在SBS+Pooling设置下,AKI-BioBERT达到了0.762的AUC和0.484的F1分数。这表明在AKI相关语料上的进一步预训练能够将通用信息融入模型,从而为AKI领域任务生成更精确的词表示。
研究结果表明,针对特定疾病领域的预训练是有效的。即使BC-BERT是在整个MIMIC-III语料库上预训练的,而AKI-BC-BERT仅在其AKI相关子集上进一步预训练,AKI-BC-BERT在大多数情况下性能仍优于BC-BERT。这说明即使在临床笔记的子集上进行进一步预训练,也能提升与该子集相关任务(即AKI早期预测)的性能。同时,AKI-BioBERT(基于BioBERT在AKI子集上预训练)的结果在大多数情况下也优于BC-BERT,这表明在包含AKI相关子集的语料上预训练比在整个MIMIC-III语料上预训练更能提升AKI预测任务的表现。
在处理长文本方面,池化策略(将笔记分割成句子,分别获取嵌入后再聚合)通常比简单的截断策略更有效。在应对类别不平衡问题上,分层批次采样(SBS)和加权损失函数(weight)等策略在不同模型上表现各异。研究发现,对于在AKI相关语料上进一步预训练的BERT模型,加权策略表现良好,但对于其他BERT模型(如BC-BERT)则可能失败。这暗示了即使使用了类别权重平衡策略,不平衡的批次仍然更依赖于BERT模型的良好初始化。
通过注意力可视化,可以直观展示模型在做出预测时关注了文本中的哪些部分。研究对比了AKI-BC-BERT和BC-BERT对一个示例笔记的注意力分布。
结果显示,AKI-BC-BERT更集中地关注与AKI临床相关的词汇,如“lasix”(利尿剂)、“endo”(内分泌)、“insulin drip”(胰岛素滴注)和“protocol”(方案),这与之前使用词袋方法的研究发现一致。而BC-BERT的注意力则更分散地分布在更多词汇上,包括一些与AKI无关的词汇(如“to”和“plan”)。这表明在AKI相关语料上预训练后的模型,其注意力机制能更精确地聚焦于与任务相关的临床概念。
本研究探索了在AKI领域临床笔记上应用预训练上下文语言模型BERT的可行性。研究人员提出了AKI-BERT,该模型通过在AKI领域语料上对预训练的BERT进行进一步训练而得。研究发现,领域特异性的AKI-BERT在AKI早期预测任务上能够取得比BERT-base、Clinical BERT或BioBERT更好的性能。同时,研究也表明对于长临床笔记,池化策略比简单截断更有效。
这项研究的主要贡献在于首次预训练并发布了针对特定疾病领域(即AKI)的上下文语言模型。所发布的AKI-BERT模型(包括基于BERT-base、BioBERT和BC-BERT的变体)为AKI相关的临床NLP任务提供了专用工具。研究结果凸显了针对疾病特异性医学领域定制的预训练语言模型的潜力。
该研究的局限性在于仅使用了来自单一医疗机构(MIMIC-III)的ICU笔记。不同机构间的语言风格通常存在显著差异,未来需要来自更多机构的AKI笔记来预训练一个适用于不同机构的AKI-BERT模型。
总之,AKI-BERT将BERT模型的实用性从通用临床领域扩展到了疾病特异性应用,证明了其在挖掘临床笔记以实现AKI早期预测方面的有效性。这种方法有望增强ICU的临床决策能力,改善患者预后。未来工作可以探索AKI-BERT在其他医学NLP任务(如AKI进展和死亡率预测)中的应用,以及利用领域知识指导BERT微调等有趣的方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号