应用可解释机器学习识别2型糖尿病(type 2 diabetes, T2D)患者中的糖尿病肾脏病(diabetic kidney disease, DKD):一项病例对照研究
《Journal of Diabetes Research》:Identifying Diabetic Kidney Disease in Type 2 Diabetes Patients Using Explainable Machine Learning: A Case-Control Study
编辑推荐:
目的:本研究聚焦于建立并测试一种机器学习驱动的预测工具,旨在辅助识别糖尿病肾脏病(DKD)。方法:预测模型使用单中心数据开发并进行内部时态验证。研究人员纳入2023年3月至2024年9月陕西省人民医院共1463例患者。采用带十折交叉验证的最小绝对收缩和选择算子
目的:本研究聚焦于建立并测试一种机器学习驱动的预测工具,旨在辅助识别糖尿病肾脏病(DKD)。方法:预测模型使用单中心数据开发并进行内部时态验证。研究人员纳入2023年3月至2024年9月陕西省人民医院共1463例患者。采用带十折交叉验证的最小绝对收缩和选择算子(least absolute shrinkage and selection operator, LASSO)回归筛选最优特征。研究人员在系列指标上比较极端梯度提升(extreme gradient boosting, XGBoost)、随机森林(RF)、支持向量机(support vector machine, SVM)和 logistic回归(logistic regression):受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUC-ROC)、精确率-召回率曲线下面积(area under the precision-recall curve, AUC-PR)、准确率(accuracy)、精确率(precision)、召回率(recall)、kappa值和F1-score。针对每种算法,研究人员使用仅常规可用临床变量建立简化模型,并在与完整模型相同的数据集上训练与评估。决策曲线分析(decision curve analysis, DCA)和校准曲线(calibration curve)用于评估最优模型的临床效用。特征重要性的分析与解释通过SHapley Additive exPlanations(SHAP)和Local Interpretable Model-agnostic Explanations(LIME)进行。结果:在筛查2型糖尿病中的DKD时,完整RF模型取得更优性能(AUC-ROC = 0.906,AUC-PR = 0.902,accuracy = 0.830,F1 = 0.847,precision = 0.794,recall = 0.907,kappa = 0.657),且显著优于简化RF模型。该模型还表现出良好的临床净获益和校准性能。完整RF模型中影响最大的预测因子依次为尿α1-微球蛋白(urine α1-microglobulin, a1-MG)、高血压(hypertension)、24小时尿总蛋白(24-h urinary total protein, 24-h UTP)、2型糖尿病病程(duration of T2D)、收缩压(systolic blood pressure, SBP)、血清视黄醇结合蛋白(retinol-binding protein, RBP)、补体C1q(complement C1q)和25-羟基维生素D(25-hydroxyvitamin D, 25(OH)D)。结论:研究人员开发了RF预测模型以促进DKD早期筛查,突出了特定临床和实验室因素在疾病预测中的重要作用。
该研究针对糖尿病肾脏病(DKD)早期识别困难、传统标志物(尿白蛋白、估算肾小球滤过率(eGFR))敏感性与特异性不足的问题,鉴于DKD发病机制涉及代谢、遗传、炎症和氧化应激等多因素且单一生物标志物难以充分预测预后,同时复杂机器学习(ML)架构相比仅含常规变量的简约模型是否带来临床相关预后增益尚不明确,研究人员开展了此项病例对照研究,基于陕西省人民医院单中心数据构建并验证融合多维临床与实验室特征的ML预测框架,得出随机森林(RF)全模型判别性能优异(测试集AUC-ROC达0.906)且纳入新兴生物标志物可显著提升预测能力与临床净获益的结论,重要意义在于为2型糖尿病(T2D)患者DKD早期筛查提供了可解释、高精度工具,并明确了尿α1-微球蛋白(a1-MG)等关键预测因子在ML框架下的价值,论文发表在《Journal of Diabetes Research》。
研究人员主要采用以下关键技术方法:研究为单中心病例对照设计,样本队列来源于陕西省人民医院2023年3月至2024年3月(训练集1046例)和2024年4月至9月(测试集417例)的T2D患者(含DKD与无DKD组),按时间切分训练/测试集进行内部时态验证;初始纳入56个变量,剔除缺失>50%的特征和任何缺失值的观测,连续变量用训练集均值标准差标准化并套用于测试集;特征筛选采用最小绝对收缩和选择算子(LASSO)回归带十折交叉验证选择最优λ以得到26个关键特征;分别构建极端梯度提升(XGBoost)、随机森林(RF)、支持向量机(SVM)径向基核、Logistic回归四种算法完整模型(基于26特征)和对应简化模型(仅含年龄、性别、T2D病程、高血压、eGFR、尿白蛋白/肌酐比值(UACR)六常规变量),超参数通过网格搜索(grid search)耦合十折交叉验证优化;模型评价采用AUC-ROC、AUC-PR、准确率、精确率、召回率、kappa、F1-score,临床效用用决策曲线分析(DCA)和校准曲线(Platt缩放校准)评估,模型解释用SHAP值和LIME方法,统计检验用Mann–Whitney U检验、卡方检验、Spearman秩相关,敏感度分析用中位数插补对比完整病例分析。
结果部分如下。
3.1. 特征选择(feature selection):研究人员对训练集初始56个特征进行LASSO回归十折交叉验证,确定最优λ=0.013,筛选出26个关键特征,包括性别、糖尿病周围神经病变(DPN)、糖尿病外周血管病(DPVD)、糖尿病视网膜病变(DR)、高血压、呼吸频率(RR)、脉搏率(PR)、收缩压(SBP)、血清25(OH)D、补体C1q、高密度脂蛋白胆固醇(HDL-C)、视黄醇结合蛋白(RBP)、总胆固醇(TC)、血尿素氮(BUN)、总胆红素(TBIL)、血磷(P)、钠(Na)、钾(K)、氯(Cl)、钙(Ca)、24-h UTP、尿a1-MG、T2D病程、血浆纤维蛋白原(FIB)、D-二聚体(D-dimer)、血小板计数(PLT);这26个特征间Spearman相关系数较低,无显著多重共线性。
3.2. 研究人群特征(characteristics of the study population):训练集1046例(nDKD 533,DKD 513),测试集417例(nDKD 201,DKD 216);两组间多数变量差异有统计学意义(如男性比例、DR、高血压、25(OH)D、C1q、HDL-C、RBP、BUN、24-h UTP、尿a1-MG、TBIL、SBP、P、T2D病程、PR、Ca、Na、K等p<0.05),提示这些特征对区分DKD具潜在价值;部分变量(DPN、D-dimer、TC、Cl、FIB、PLT、RR在测试集某些组)差异无统计学意义。
3.3. DKD预测模型的构建与评估(construction and evaluation of the DKD prediction model):研究人员用十折交叉验证确定最优超参数构建最终模型,在测试集上完整RF模型性能最优(AUC-ROC=0.906,AUC-PR=0.902,accuracy=0.830,F1=0.847,precision=0.794,recall=0.907,kappa=0.657);其他完整模型依次为XGBoost、SVM、Logistic回归性能次之;简化模型中简化RF最高(AUC-ROC=0.806),但显著低于完整RF(DeLong检验p<0.001);DCA显示完整RF在阈值概率0.25~0.75内净获益高于简化RF,完整RF在0%~93%阈值内均有正净获益;校准曲线经Platt缩放后完整RF更接近对角线(Brier评分0.155 vs 简化0.193),显示更优校准。
3.4. RF模型的解释分析(explanation analysis of the RF model):SHAP全局重要性排序前8位预测因子为尿a1-MG(正关联)、高血压(正)、24-h UTP(正)、T2D病程(正)、RBP(正)、SBP(正)、25(OH)D(负关联)、C1q(正);LIME局部解释显示,即便T2D病程短但伴多个异常参数(如PR、25(OH)D低、高血压、24-h UTP高)的个案预测DKD高风险,而长病程但这些参数大致正常的个案预测低风险,SHAP与LIME局部归因虽细节不同但风险判断一致。
3.5. 选择偏倚与缺失数据稳健性评估(assessment of selection bias and robustness to missing data):对比纳入(训练1046例)与排除(295例)患者,性别、DKD、DPN、DPVD、DR、高血压无显著差异(p>0.05),仅T2D病程有差异;测试集类似;中位数插补敏感度分析得完整RF的AUC-ROC为0.919(完整病例0.906),结论不受缺失处理方法影响。
讨论部分总结:研究人员指出DKD发病机制复杂,传统单一指标敏感特异性不足;RF全模型测试集AUC-ROC 0.906,校准与DCA证实良好临床效用,比仅含六常规变量的简化模型显著提升性能,证明ML整合多维度变量可超越常规临床变量;解释分析发现尿a1-MG是最强预测因子,反映近端小管功能损伤在DKD早期的作用,其他重要因子包括高血压、24-h UTP、T2D病程、RBP(血清视黄醇结合蛋白,近端小管重吸收标志物)、SBP、C1q(补体激活相关,血清C1q在DKD升高关联更严重肾损伤)、25(OH)D(负相关,维生素D有肾脏保护)。讨论也承认局限:仍有一定误分类率;病例对照设计潜在选择偏倚(但敏感度分析支持稳健);仅单中心内部时态验证,缺乏外部验证(计划用不同地区至少两家医院≥200事件+200非事件数据验证);当前模型属探索性尚未临床部署。结论部分翻译:综上,研究人员构建了具稳健预测性能的RF模型筛查DKD;尿a1-MG、高血压、24-h UTP、T2D病程、RBP、SBP、C1q、25(OH)D显示与DKD风险高度相关;本研究为应用临床与实验室数据检测T2D中DKD提供了线索。