监督式机器学习模型用于预测新生儿术后低心输出量综合征

《Critical Care Explorations》:Supervised Machine Learning Models Predicting Postoperative Low Cardiac Output Syndrome In Neonates

【字体: 时间:2025年10月08日 来源:Critical Care Explorations

编辑推荐:

  新生儿心脏术后低心输出量综合征预测的监督式机器学习模型开发与验证。通过LightGBM算法构建时间序列模型,利用术后2-48小时动态生理数据(乳酸、尿量、血管活性药物评分等)预测LCOS,模型在2-12小时预测窗内AUROC达0.91-0.98,SHAP分析显示乳酸、尿量及药物评分为主要预测因子。研究为临床提供早期风险预警工具,需多中心验证。

  本研究聚焦于新生儿在心脏外科手术后48小时内发生低心输出综合征(LCOS)的风险预测,利用监督式机器学习(ML)模型进行分析,旨在为临床提供更早、更精准的预警工具。LCOS是一种与术后血流动力学不稳定密切相关的严重并发症,常发生在心脏手术后,尤其是在先天性心脏病(CHD)患儿中更为常见。由于新生儿生理储备有限,术后病情变化快速,因此对LCOS的早期识别和干预具有重要意义。本文通过构建时间序列数据集,结合多种机器学习方法,探索了LCOS预测的可行性,并验证了模型的性能和临床适用性。

### 一、研究背景与意义

LCOS是心脏外科手术后一种常见的并发症,其特征是心脏泵血功能不足,无法满足机体对氧气和营养物质的需求。在先天性心脏病患儿中,LCOS的发生率较高,据相关文献报道,其发生率范围在24%到71%之间,具体取决于所采用的定义标准。LCOS可能导致严重的术后并发症,包括器官功能障碍、多器官衰竭甚至死亡。研究发现,大约一半的术后死亡病例与LCOS有关,这表明LCOS的早期识别和干预对改善预后至关重要。

然而,目前LCOS的诊断仍依赖于传统的临床指标,如血管活性药物评分(VIS)、尿量、乳酸水平等,这些指标虽然在一定程度上有助于评估病情,但缺乏动态的预测能力,难以提前预警。此外,这些指标通常需要在术后72小时内测量,这可能影响临床决策的及时性。因此,开发一种能够基于时间序列数据预测LCOS的机器学习模型,具有重要的临床价值。这种模型不仅可以帮助医生在手术后尽早识别高风险患者,还可以通过分析生理指标的变化趋势,为术后管理提供更精确的指导。

本研究首次尝试将监督式机器学习应用于新生儿术后LCOS的预测,构建了一个包含181名患儿的数据集,其中14.9%的患者出现了LCOS。通过引入时间滞后特征,模型能够捕捉术后早期的生理变化趋势,从而提高预测的准确性。研究团队使用了LightGBM算法,这是一种高效的梯度提升树模型,因其在处理高维数据和非线性关系方面的优势而被广泛应用于医学预测领域。

### 二、研究方法与数据处理

研究采用了回顾性观察设计,数据来源于美国克利夫兰诊所儿童医院的电子健康记录(EHR)。研究对象为年龄在28天以内的新生儿,他们接受了心脏外科手术并被转入儿科心脏重症监护室(PCICU)。研究时间跨度为2012年1月至2023年4月,共计181例患者。研究排除了使用体外膜肺氧合(ECMO)的病例,以确保数据的同质性和代表性。

为了构建预测模型,研究团队收集了患者在术后48小时内每小时记录的临床和实验室数据。这些数据包括年龄、体重、术前单心室生理状态、术中手术类别(如STAT分类)和体外循环(CPB)时间等。术后数据则涵盖了体温、心率、呼吸频率、动脉血氧饱和度(SpO?)、侵入性动脉血压、中心静脉压(CVP)、尿量、近红外光谱(NIRS)监测结果、乳酸水平、血气分析指标(如PaO?、PaCO?、pH值、碱剩余等)以及血红蛋白、离子钙和血糖水平等。

在数据预处理阶段,研究团队采取了两种策略来处理缺失值:对于时间变化的变量,使用“最后观测值向前填充”(LOCF)方法;对于完全缺失的变量,则采用“多重插补法”(MICE)。这两种方法旨在保持数据的完整性和准确性,为后续的模型训练和验证提供可靠的数据基础。

为了增强模型对时间动态变化的捕捉能力,研究团队引入了滞后特征。即在每个预测时间点,使用前1小时和前2小时的数据作为输入变量。这种设计使得模型能够识别短期内生理指标的变化趋势,从而更准确地预测LCOS的发生。通过这种时间序列建模方式,研究团队进一步提高了模型的预测性能。

在模型开发过程中,研究团队对LightGBM、XGBoost和CatBoost三种算法进行了比较,最终选择LightGBM作为主要分类器。LightGBM在所有预测时间窗口(2小时、4小时、6小时和12小时)中均表现出较高的预测能力,其曲线下面积(AUROC)范围为0.91至0.98,而精确率-召回率曲线(AUPRC)则为0.60至0.80。这些结果表明,LightGBM模型在预测LCOS方面具有良好的区分能力和临床适用性。

为了进一步优化模型性能,研究团队采用了嵌套交叉验证(nested cross-validation)策略,将数据集分为10个外层折叠,每个外层折叠作为独立的测试集,其余数据用于训练和调参。在每个外层折叠中,使用5个内层折叠进行超参数调优,通过Optuna工具实现高效搜索。这一方法不仅降低了模型过拟合的风险,还提供了更可靠的泛化能力评估。

### 三、模型性能与关键预测因子

模型的预测性能在多个指标上均表现出色。在2小时预测窗口中,AUROC达到0.98,AUPRC为0.72;在4小时窗口中,AUROC为0.97,AUPRC为0.80;6小时窗口中,AUROC为0.93,AUPRC为0.72;而在12小时窗口中,AUROC为0.91,AUPRC为0.60。这些数值表明,无论预测时间窗口长短,模型均能保持较高的预测能力。然而,随着预测时间的延长,模型的精确率和召回率有所下降,这可能与临床数据的复杂性和不确定性有关。

通过SHAP分析,研究团队进一步明确了模型中各变量的重要性。结果显示,较高的乳酸水平、较高的VIS评分以及较低的尿量是预测LCOS发生的最显著因素。此外,一些滞后特征,如前1小时和前2小时的尿量、碱剩余、VIS和心率等,也对模型预测具有重要影响。这表明,LCOS的发生不仅与当前的生理指标有关,还受到近期变化趋势的显著影响。

值得注意的是,尽管模型在多个时间窗口中表现良好,但其在12小时预测窗口中的召回率明显低于短时间窗口。这一现象可能与LCOS事件在术后较长时间内发生的不确定性有关。例如,在12小时预测窗口中,LCOS事件可能受到更多外部因素的影响,如术后干预措施的变化、生理波动等。因此,模型在较长时间窗口中的预测能力受到一定限制。

为了进一步提升模型的性能,研究团队尝试了合成少数类过采样技术(SMOTE)进行数据增强,但这种方法虽然提高了12小时预测窗口的召回率,却同时降低了精确率,并引入了合成数据可能带来的偏差问题。因此,最终模型仍基于实际观测数据进行训练,以确保预测结果的临床可靠性。

### 四、研究结果与临床应用前景

研究结果表明,LightGBM模型在预测LCOS方面具有显著优势,尤其是在较短的预测时间窗口中。模型的高预测准确率和良好的解释性,使其在临床环境中具有潜在的应用价值。例如,模型可以为医生提供早期预警,帮助他们在术后短时间内识别高风险患者,从而采取更积极的干预措施。

此外,模型的预测结果能够支持临床决策,如调整血管活性药物的使用、优化液体管理策略以及监测重要生理指标的变化。这些干预措施的及时实施,可能有效预防LCOS的进一步发展,减少术后并发症的发生率,提高患儿的生存率和生活质量。

尽管本研究的模型表现良好,但其局限性也需被关注。首先,研究采用的是回顾性数据,这意味着模型的预测能力可能受到数据质量、采集方式和医院特定实践的影响。其次,样本量相对较小,这可能会影响模型的泛化能力。因此,未来的研究需要在更大、更多样化的数据集上进行验证,以确保模型的广泛适用性。

此外,由于研究时间跨度较长(2012年至2023年),临床实践可能发生了变化,这可能影响模型的预测性能。例如,新的手术技术、药物使用规范或监测方法的引入,可能导致数据分布的变化,进而影响模型的校准和适用性。因此,研究团队建议在未来的多中心研究中进一步验证模型的性能,并探索其在实时电子健康记录(EHR)系统中的应用。

### 五、研究的创新性与局限性

本研究的创新性在于首次将监督式机器学习应用于新生儿术后LCOS的预测。与以往基于规则的预测工具相比,机器学习模型能够自动学习复杂的生理模式,从而提供更准确和个性化的预测结果。此外,模型通过引入滞后特征,能够捕捉术后早期的生理变化趋势,为临床干预提供更早的时间窗口。

然而,本研究也存在一定的局限性。首先,由于数据来源单一,研究结果可能无法推广到其他医疗机构或不同患者群体。其次,模型的预测能力在较长时间窗口中有所下降,这可能限制其在临床中的应用范围。此外,尽管模型具有良好的解释性,但其预测结果仍需结合临床判断,不能完全替代医生的经验。

### 六、未来研究方向与临床建议

为了进一步提升模型的泛化能力和临床适用性,未来的研究应关注以下几个方面:一是扩大数据集的规模和多样性,包括更多不同医院和地区的患者数据,以验证模型的广泛适用性;二是探索模型在实时电子健康记录系统中的应用,实现对术后LCOS的动态监测和预警;三是结合临床实践,优化模型的输入变量和预测阈值,以提高其在实际环境中的预测准确率。

此外,研究团队建议将模型整合到术后护理流程中,作为辅助决策工具,帮助医生在手术后早期识别高风险患者。这种整合不仅可以提高临床工作效率,还可以减少不必要的干预,降低医疗成本。同时,研究团队强调,尽管模型具有较高的预测能力,但其结果仍需结合临床经验和个体差异进行综合判断。

### 七、总结

本研究通过构建时间序列数据集,利用监督式机器学习模型对新生儿术后LCOS的发生进行了预测。研究结果表明,LightGBM模型在多个预测时间窗口中均表现出较高的预测性能,尤其是在2小时和4小时窗口中。模型的关键预测因子包括较高的乳酸水平、较高的VIS评分和较低的尿量,这些指标为临床提供了重要的参考依据。

尽管模型具有良好的解释性,但其在较长预测时间窗口中的表现受到一定限制。因此,未来的研究应进一步优化模型,探索其在不同时间窗口中的适用性,并结合临床实践进行验证。此外,模型的临床应用仍需在多中心研究中进行测试,以确保其在不同医疗机构和患者群体中的适用性。

总体而言,本研究为新生儿术后LCOS的预测提供了新的思路和方法,具有重要的临床意义。随着机器学习技术的不断发展和临床数据的积累,未来有望开发出更加精准、高效的预测工具,为术后管理提供更有力的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号