基于机器学习的肾移植术后血红蛋白浓度预测模型构建与优化研究

【字体: 时间:2025年07月09日 来源:BMC Medical Informatics and Decision Making 3.3

编辑推荐:

  本研究针对肾移植术后贫血并发症的临床预测难题,创新性地结合KNN-MLP缺失值填补和ECOC-XGBoost算法,构建了准确率达87.22%的预测模型。团队通过特征工程筛选出25个关键临床指标(如高血红蛋白时间占比、最大血红蛋白值等),采用三分类策略实现术后30天Hb异常风险精准预警,为临床决策提供智能化支持。

  

肾移植作为终末期肾病的最有效治疗手段,术后贫血发生率高达30-40%,而血红蛋白(Hb)浓度是诊断的关键指标。当前临床面临两大痛点:一是传统预测方法依赖经验判断,难以处理复杂的临床特征关联;二是现有机器学习模型多聚焦于急性排斥(AR)、移植物功能延迟恢复(DGF)等严重结局,对Hb等精细指标的预测研究匮乏。更棘手的是,真实世界医疗数据存在大量缺失值和样本不平衡问题,直接影响模型可靠性。

华中科技大学同济医学院附属同济医院器官移植研究所的研究团队在《BMC Medical Informatics and Decision Making》发表创新成果。该研究回顾性纳入854例肾移植患者数据,通过融合K最近邻(KNN)和多层感知机(MLP)的缺失值填补方法(欧氏距离2.905优于传统方法3.902),结合递归特征消除(RFE)筛选出25个关键特征(如最大血红蛋白浓度、供受体O型血等)。研究首次提出"最佳近似法"确定三分类策略(正常115-150 g/L、低<115 g/L、高>150 g/L),采用误差校正输出码(ECOC)优化极端梯度提升(XGBoost)模型,最终预测准确率达87.22%,对高低Hb异常的召回率分别达85.3%和98.9%。

关键技术包括:1) 基于临床特征缺失属性的KNN-MLP融合填补;2) RFE-XGBoost特征筛选;3) 自适应综合过采样(ADASYN)处理样本不平衡;4) ECOC算法优化树模型。研究采用十折分层交叉验证防止过拟合。

缺失值填补
创新提出的KNN-MLP融合方法同时考虑特征表纵向(同特征不同病例)和横向(同病例不同特征)信息,填补效果显著优于均值填充(3.902→2.905)。如图表2所示,该方法在模拟10%随机缺失数据集上表现最优。

特征筛选
如图1所示,XGBoost经RFE优化后筛选的25个特征(如高血红蛋白时间占比、最大尿素值等)与LASSO回归结果高度吻合(21/25特征至少被另两种方法共同筛选)。图2直观展示了特征重要性排序,其中时间占比类特征尤为关键。

分类数确定
通过肘部法和轮廓系数确定理想聚类数K=3(图3-SSE曲线拐点,图4轮廓系数峰值)。结合临床阈值与聚类相似性分析(表4),三分类的V-measure评分0.1946最优,图5可视化显示三分类下实际聚类与理想聚类匹配度最高。

模型性能
如表5所示,ECOC优化使XGBoost模型准确率从85.98%提升至87.22%,宏观平均F1-score达86.70%。如图6混淆矩阵显示,模型对高Hb样本预测精确度达97.7%。表7详细列出了各标签的预测指标,满足临床对异常病例的高召回需求。

该研究通过方法学创新解决了医疗数据处理的三大难题:1) 融合算法提升缺失值填补精度;2) "最佳近似法"科学确定分类数;3) ECOC优化使树模型性能突破瓶颈。临床价值在于:① 为Hb异常提供早期预警(如高胆固醇时间占比等非直观特征被证实相关);② 特征重要性排序(图2)揭示了新的临床监测重点;③ 87.22%的准确率为智能诊疗系统奠定基础。研究局限性在于未纳入肾衰竭病因等特征,且高低Hb预测差异的机制需进一步探索。这些发现为器官移植预后预测提供了新的方法学范式和临床决策支持工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号