
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于BERT的ICD-10编码嵌入技术:心血管电子病历大数据驱动的诊断模式解析与MACE预测
【字体: 大 中 小 】 时间:2025年08月12日 来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
本研究针对电子病历(EMR)中高维ICD-10编码的语义挖掘难题,创新性地采用ClinicalBERT模型构建低维嵌入表示。韩国峨山医学中心团队通过49.5万例心血管患者数据分析表明,该方法将特征维度从2,492降至128,同时使PCI/CABG术后主要心血管不良事件(MACE)预测AUC提升至0.746,较传统独热编码(OHE)提升3.8%,为临床决策提供了更精准的AI支持。
在医疗信息化浪潮中,电子病历(EMR)已成为临床研究的金矿,但如何从海量诊断代码中挖掘真正有价值的临床信息,一直是困扰研究人员的难题。传统独热编码(OHE)方法在处理ICD-10这类高维稀疏数据时,就像用放大镜观察星空——虽然能看到星星,却难以捕捉星座间的关联。更棘手的是,临床诊断代码存在大量同义异形、一词多义现象,例如"高血压"可能对应多个ICD-10编码,而同一编码在不同患者身上又可能代表不同严重程度。这种复杂性使得常规机器学习模型在预测心血管不良事件时,往往表现得像个"记忆高手"而非"推理专家"。
韩国首尔峨山医学中心(Asan Medical Center)的研究团队另辟蹊径,将自然语言处理(NLP)领域的尖端技术——双向编码器表示(BERT)引入医疗编码分析。这项发表在《BMC Medical Informatics and Decision Making》的研究,就像为诊断代码配备了一位"语言专家",不仅能理解每个代码的字面意思,更能把握它们在特定临床语境下的深层关联。研究人员创新性地采用频率排序法处理诊断序列,使模型准确率达到0.977,较传统时间排序法提升1.2%。
研究团队运用三大关键技术:1)基于49.5万例心血管患者EMR构建诊断代码频率矩阵;2)采用ClinicalBERT模型生成128维嵌入表示,较OHE降维95%;3)集成XGBoost算法预测MACE。数据来自2000-2020年峨山医学中心CardioNet数据库,经伦理审查(2021-0303)后去除单次就诊等噪声数据。
【诊断序列优化】
通过对比时间排序、字母排序和频率排序三种方法,发现频率排序的ClinicalBERT模型验证损失最低(0.124),较时间模型降低45%。

【心脏疾病预测】
在10类心脏相关ICD-10编码预测中,ClinicalBERT的AUC(0.864±0.028)显著优于OHE(0.795±0.089)。特别在脑梗死(I63)预测上,AUC提升15.4%。

【MACE预测】
对1,578例PCI/CABG患者的分析显示,128维ClinicalBERT嵌入的MACE预测AUC达0.746,较OHE提升3.8%。表4显示该模型在精确率-召回率(PRC)指标上优势更明显(0.648 vs 0.601)。

这项研究突破了传统医疗编码分析的维度诅咒,证明BERT架构能有效捕捉诊断代码间的临床语义关联。尤其值得注意的是,模型在保留罕见疾病编码的情况下仍保持高性能,这对真实世界研究至关重要。研究者特别指出,虽然ICD-11理论上能提供更精细的编码体系,但当前临床实践仍以ICD-10为主,这使得该成果具有立即推广应用的价值。未来整合基因组学等多元数据,或将开启精准医疗预测的新纪元。正如通讯作者Tae Joon Jun强调的,这项技术不仅是个算法突破,更是向"可解释医疗AI"迈出的关键一步——它让机器开始用医生的语言理解疾病。
生物通微信公众号
知名企业招聘