编辑推荐:
心血管事件(CVE)是腹膜透析(PD)患者发病和死亡的主要原因,传统预测工具准确性欠佳。研究人员对比基于机器学习算法和 Cox 比例风险回归的 CVE 预测模型性能,发现随机生存森林(RSF)模型预测性能更好,有助于评估 PD 患者 CVE 风险。
在医疗领域,腹膜透析(PD)是治疗终末期肾病的重要手段之一。然而,PD 患者却面临着一个严峻的问题 —— 心血管事件(CVE)频发,这也是导致他们发病和死亡的主要原因。与普通人群相比,PD 患者由于存在炎症、氧化应激、钙磷代谢异常、水负荷过多以及高糖负荷等多种风险因素,使得心血管疾病(CVD)的负担更为沉重。传统的风险评估工具,如 Framingham 风险评分,并不完全适用于 PD 患者,因为两者的风险因素和病理生理特征存在差异。而经典的 Cox 比例风险回归模型,虽然是分析生存数据的常用方法,但它存在一些局限性,比如假设风险比例恒定以及预测变量与结果之间呈线性关系,在复杂的临床环境中,这些假设往往难以成立。因此,开发一种更准确、更可靠的预测模型,对于早期识别 PD 患者中的高风险个体,改善他们的预后,就显得尤为重要。
为此,安徽医科大学第二附属医院的研究人员开展了一项研究。他们的研究旨在对比基于机器学习算法和 Cox 比例风险回归构建的 CVE 预测模型的性能。研究人员通过一系列实验,最终得出结论:随机生存森林(RSF)模型在预测 PD 患者 CVE 风险方面表现更优,或许是评估该风险的有效方法。这一研究成果发表在《BMC Medical Informatics and Decision Making》上,为 PD 患者心血管疾病的防治提供了新的思路和方法。
在研究方法上,研究人员进行了单中心回顾性队列研究。样本来源于 2010 年 1 月 1 日至 2022 年 7 月 31 日在安徽医科大学第二附属医院接受 PD 导管置入术的患者。经过一系列排除标准筛选后,318 例患者被纳入后续分析,并随机分为训练集和验证集 。研究人员收集了患者的多项基线数据,包括人口统计学信息、实验室检查数据、超声心动图参数等。之后,运用 Cox 比例风险回归、极端梯度提升(XGBoost)和随机生存森林(RSF)三种模型进行分析,通过 10 折交叉验证等方法优化模型超参数,并使用时间依赖性受试者工作特征曲线下面积(AUC)和一致性指数(C-index)评估模型的判别能力。
下面来看具体的研究结果:
- 患者特征:研究共纳入 318 例 PD 患者,其中 110 例(34.6%)在中位随访 31(16,56)个月期间发生了 CVE。与未发生 CVE 的患者相比,发生 CVE 的患者年龄更大、血小板计数更高、随访时间更短,血清尿素氮和血清白蛋白水平更低。并且训练集和验证集在各变量上无统计学差异,说明分组平衡。
- LASSO-Cox 回归分析和列线图:通过 LASSO 回归和逐步多元 Cox 回归分析,确定了年龄、BMI、血小板计数等多个变量为 CVE 的独立风险因素,并构建了列线图。该列线图在训练集和验证集的 C-index 分别为 0.688 和 0.685 ,不同时间点的 AUC 也显示出一定的预测能力。
- XGBoost 模型:XGBoost 模型在训练集和验证集的 C-index 分别为 0.771 和 0.703,不同时间点的 AUC 表明其有一定的预测性能,但整体稍逊于 RSF 模型。
- 随机生存森林:RSF 模型在训练集和验证集的 C-index 分别为 0.810 和 0.725,1 - 5 年时间依赖性 AUC 在训练集和验证集中表现良好,且通过 SHAP 值分析得出血小板计数、年龄、4hD/Pcr、左心房(LA)直径和左心室(LV)直径是影响模型预测的前 5 个重要变量。此外,根据计算的截断风险评分将患者分为高、低风险组,两组的累积无 CVE 生存概率有显著差异,同时研究人员还开发了基于网络的风险计算器。
在研究结论与讨论部分,研究人员指出 RSF 模型在预测 PD 患者 CVE 风险方面具有优势。其识别出的重要变量与 CVE 均有明确的关联,如血小板计数、年龄等。与以往研究相比,本研究充分考虑了生存数据中的生存时间,增强了风险预测的准确性,且模型中的临床指标易于测量和收集,具有较高的实用性。然而,研究也存在一些局限性,例如单中心研究样本量有限、存在插值偏倚、部分重要指标缺失、随访时间不够长以及需要外部验证等。尽管如此,该研究依然为 PD 患者心血管疾病的风险评估提供了新的方法和依据,有助于临床医生更好地对 PD 患者进行风险分层,制定个性化的医疗策略,改善患者的预后。未来,期待更多大样本、多中心的研究来进一步验证和完善这一成果,为 PD 患者带来更多的福音。