
-
生物通官微
陪你抓住生命科技
跳动的脉搏
电子健康记录中随机森林模型对中心静脉导管相关血流感染的静态与动态预测比较研究
【字体: 大 中 小 】 时间:2025年07月22日 来源:Diagnostic and Prognostic Research
编辑推荐:
本研究针对电子健康记录(EHR)数据中医院获得性感染预测的建模方法学问题,比较了随机森林(RF)模型在二进制、多分类、生存分析和竞争风险四种建模策略下的预测性能。研究人员通过30,862例导管事件数据分析发现,在无删失数据场景下,复杂模型并未显著提升预测性能,但证实竞争事件错误处理会导致模型校准偏差。该研究为临床预测模型方法学选择提供了重要实证依据。
在现代化医院管理中,中心静脉导管相关血流感染(CLABSI)始终是困扰临床的重大挑战。这种医院获得性感染不仅延长患者住院时间,增加医疗成本,更可能威胁患者生命安全。传统监测方法存在滞后性,而电子健康记录(EHR)系统的普及为实时预测提供了数据基础。然而,面对复杂的临床场景——患者可能发生感染、出院或死亡等多种结局,研究人员该如何选择最优的建模策略?这正是比利时鲁汶大学医院等机构的研究团队在《Diagnostic and Prognostic Research》发表的最新研究试图解答的核心问题。
该研究创新性地系统比较了随机森林(RF)算法在四种建模框架下的表现:将结局简化为二分类(感染/未感染)、多分类(感染/出院/死亡/无事件)、传统生存分析(仅考虑感染时间)以及竞争风险模型(同时考虑感染、出院和死亡时间)。研究团队基于27,478例住院患者的30,862次导管事件数据,采用100次训练集/测试集分割验证,通过AUROC、校准度等指标全面评估模型性能。关键技术包括:使用randomForestSRC软件包实现不同结局类型的RF建模、采用地标分析法实现动态预测、通过最小深度指标分析变量重要性,以及创新性地采用时间离散化和行政删失策略提升计算效率。
研究结果部分,静态模型比较显示:生存模型若在竞争事件发生时即进行删失处理(surv7d和surv30d),会导致明显高估风险(E:O比1.44-1.47)和较差的判别能力(AUROC 0.724-0.729);而将竞争事件保留至预测时间点再删失(surv7d_cens7)则性能与其他模型相当。动态模型在导管放置后第5天(LM5)达到最佳预测性能(AUROC 0.775)。值得注意的是,使用多结局水平的模型(多分类和竞争风险)表现出独特的变量选择模式——更倾向于选择化疗、抗生素和C-反应蛋白(CRP)等特征进行早期节点分裂,而二分类模型则优先考虑全肠外营养(TPN)。
在计算效率方面,二分类模型展现出明显优势。复杂模型的调参时间是简单模型的2-3倍,而预测性能提升有限。研究还发现,多结局模型虽然预测风险较高导致轻微校准偏差(ECI较高),但在识别高风险患者方面表现更优(AUPRC更高)。
这项研究的重要价值在于为临床预测模型的方法学选择提供了实证依据。结果表明,在无删失数据的医院获得性感染预测场景中,相对简单的二分类模型即可达到与复杂模型相当的预测性能,而错误处理竞争事件会显著损害模型校准。研究提出的"将竞争事件保留至预测时间点"的处理策略,为无法实现竞争风险分析的软件环境提供了实用替代方案。该发现不仅适用于CLABSI预测,对其它医院获得性感染(如呼吸机相关肺炎、导管相关尿路感染)的预测模型开发也具有重要参考价值。未来研究可进一步探索特征选择对多结局模型性能的影响,以及不同时间窗预测结果的临床实用性差异。
生物通微信公众号
知名企业招聘