基于机器学习的IgA肾病5年预后预测模型开发与验证:一项多中心研究
《Scientific Reports》:Development and preliminary validation of a predictive model for IgA nephropathy progression
【字体:
大
中
小
】
时间:2025年12月15日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对IgA肾病(IgAN)预后评估难题,开发并验证了一种整合临床与病理特征的机器学习预测模型。研究人员通过LASSO-Cox和XGBoost算法,利用1,135例患者数据构建了包含血红蛋白(Hb)、24小时尿蛋白(24h UTP)、高血压(HTN)、估算肾小球滤过率(eGFR)和牛津分类T评分五个关键变量的nomogram图。模型在训练集、内部验证集和外部验证集的AUC分别达0.951、0.927和0.913,显著优于国际IgAN预测工具(IIgANPT)的0.715。该模型为初级医疗机构提供了简便的早期风险分层工具,有助于实现个性化管理。
在中国东部地区,IgA肾病(IgAN)已成为最常见的原发性肾小球疾病,但其临床进程却呈现出高度异质性——部分患者可维持肾功能稳定数十年,而约20-30%的患者在20年内会进展至终末期肾病(ESRD)。这种"同病不同命"的特点给临床诊疗带来了巨大挑战,特别是在医疗资源相对有限的基层医疗机构,如何早期准确识别高风险患者并制定个性化治疗方案,一直是肾病领域亟待解决的关键问题。
传统上,医生们主要依赖牛津分类和国际IgAN预后评分(IIgANPT)等工具进行风险评估,但这些模型往往存在一定局限性。例如,IIgANPT虽然广泛应用,但其预测效能仍有提升空间,且基于40%肾小球滤过率(eGFR)下降的终点指标可能无法足够早地识别风险。更重要的是,现有模型多基于传统统计学方法构建,对复杂非线性关系的捕捉能力有限,且通常需要专业肾病科医生进行解读,在基层医院的推广使用存在一定障碍。
在这一背景下,来自浙江中医药大学附属杭州中医医院、温州中西医结合医院等多家医疗中心的研究团队开展了一项创新性研究,他们尝试将机器学习技术应用于IgAN的长期预后预测。研究团队收集了1,135例经肾活检确诊的IgAN患者的临床资料,并采用先进的数据分析方法,开发了一种新型预测模型,该研究成果近期发表在《Scientific Reports》期刊上。
研究方法上,团队采用了严谨的统计学习流程。首先,他们通过多重插补法处理了部分缺失数据,确保样本代表性。随后,利用自助抽样法生成1,000个训练集样本,每个样本均进行10折交叉验证,以确定LASSO-Cox模型的最佳正则化参数(λ)。通过这种稳健的变量筛选方法,研究人员从31个候选预测因子中识别出了最具预测价值的五个关键变量:血红蛋白(Hb)水平、24小时尿蛋白定量(24h UTP)、高血压(HTN)状态、估算肾小球滤过率(eGFR)分期以及牛津分类中的T评分(代表肾小管间质纤维化程度)。
基于这些核心变量,团队构建了XGBoost生存预测模型,并进一步开发了对应的nomogram图工具。为验证模型效能,研究不仅进行了内部验证(70%训练集/30%验证集),还收集了来自三家医院的352例患者数据进行外部验证。模型性能从区分度、校准度和临床实用性三个维度进行全面评估,包括受试者工作特征曲线(ROC)、Brier评分和决策曲线分析(DCA)。
研究结果部分,基线特征分析揭示了显著差异。在723例主要队列患者中,44例(6.1%)在5年内达到复合终点(ESRD、血肌酐翻倍或eGFR下降≥40%)。与未达到终点的患者相比,进展组患者年龄更大(42.5岁 vs 35岁)、高血压患病率更高(86.4% vs 34.5%)、蛋白尿水平更严重(2.40g/24h vs 0.85g/24h)、血红蛋白水平更低(110g/L vs 121g/L)。病理方面,肾小管间质纤维化(T评分)与疾病进展密切相关,T2患者中有52.3%达到终点,而T0组仅有15.9%。
变量重要性分析显示,五个预测因子对模型贡献均衡,不存在多重共线性问题。SHAP分析进一步证实了这些变量的预测价值,其中蛋白尿水平和T评分权重最高。
模型性能评估结果令人鼓舞。XGBoost模型在训练集中的曲线下面积(AUC)为0.951(95%CI:0.914-0.988),内部验证集中为0.927(95%CI:0.877-0.978),外部验证集中仍保持0.913(95%CI:0.870-0.955)的高水平。Brier评分分别为0.029(内部验证)和0.045(外部验证),表明模型校准度良好。决策曲线分析证实了模型的临床实用性。
与现有工具的比较凸显了新模型优势。当使用与IIgANPT相同的终点定义(eGFR下降≥50%)时,新模型的AUC为0.915,显著高于IIgANPT的0.715。更重要的是,新模型采用eGFR下降≥40%作为终点,能够更早识别高风险患者,为临床干预争取了宝贵时间。
基于模型结果开发的nomogram图极大提升了工具的实用性。临床医生只需根据患者五个指标的值在对应轴上画线,计算总分后即可在底部概率轴上读取5年肾生存率。例如,一名24h UTP为4.51g、T=2、伴有高血压、eGFR为G4期但无贫血的患者,总分为243.6,对应5年生存率仅13%,提示需要密切监测和积极干预。
讨论部分深入分析了各预测因子的临床意义。贫血作为预测因子可能与慢性肾病导致的促红细胞生成素(EPO)缺乏、铁代谢紊乱有关,组织缺氧可能通过激活低氧诱导因子(HIF)信号通路加速肾病进展。蛋白尿>1g/24h已被多个研究证实是ESRD的强预测因子,而肾小管间质损伤(T评分)则反映了不可逆性肾损伤的程度。高血压的存在往往伴随更严重的血管病变,加速肾小球硬化。
研究的创新性在于首次将机器学习算法与多中心大数据相结合,构建了专门针对中国IgAN人群的长期预后工具。与以往研究相比,该模型不仅预测性能优异,而且兼顾了临床实用性——五个预测变量均为常规检查项目,无需特殊检测,特别适合在基层医院推广使用。
当然,研究也存在一定局限性。事件数-变量数比(EPV=1.19)相对较低可能影响参数估计稳定性;回顾性设计虽经多重插补处理,仍可能存在残余混杂偏倚;未纳入遗传学数据可能限制了模型的预测上限。未来需要更大样本的前瞻性研究,并整合基因组学信息,进一步提升预测精度。
综上所述,这项研究成功开发并验证了一种基于机器学习的IgA肾病5年预后预测模型,该模型不仅具有优异的预测性能,而且通过直观的nomogram图形式,为基层医生提供了简便易用的风险评估工具。模型的推广应用有望实现IgAN患者的早期风险分层和个性化管理,最终改善患者长期预后。随着人工智能技术在医疗领域的深入应用,此类数据驱动的研究范式将为复杂疾病的精准诊疗开辟新的途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号