
-
生物通官微
陪你抓住生命科技
跳动的脉搏
数据平衡有助于提高急诊科患者的死亡率预测准确性
《BMC Medical Informatics and Decision Making》:Data balancing improves mortality prediction for emergency department patients
【字体: 大 中 小 】 时间:2026年06月10日 来源:BMC Medical Informatics and Decision Making 3.8
编辑推荐:
摘要背景在急诊科(ED),准确预测患者死亡率对于提升急诊医疗服务至关重要。目前的预测模型在准确性和实用性方面都存在局限,尤其是在早期识别高风险患者方面。由于死亡样本的数量远少于生存样本,机器学习的效果受到数据质量的严重影响。本研究旨在实现更平衡且更准确的患者死亡率预测,并评估数据
在急诊科(ED),准确预测患者死亡率对于提升急诊医疗服务至关重要。目前的预测模型在准确性和实用性方面都存在局限,尤其是在早期识别高风险患者方面。由于死亡样本的数量远少于生存样本,机器学习的效果受到数据质量的严重影响。本研究旨在实现更平衡且更准确的患者死亡率预测,并评估数据平衡方法的有效性。
本研究分析了2008年至2016年间从台湾五家医疗机构收集的2,437,341份非创伤性成人急诊就诊记录,涵盖了四个死亡时间范围:24小时内死亡、72小时内死亡、168小时内死亡以及最终死亡,并评估了三种数据平衡方法:随机欠采样(RUS)、合成少数类过采样技术(SMOTE)和随机过采样(ROS)。我们采用了随机森林(RF)、AdaBoost(ADA)和XG Boost(XGB)作为模型。逻辑回归(LR)作为这些模型的元学习器。此外,我们还基于RF、ADA、带自助法的AdaBoost(ADA-BS)和信息增益(IG)进行了特征重要性分析。
我们使用XGB构建的模型获得了最佳的AUROC值,为91.41%,优于Wu等人使用相同数据集在168小时死亡时间范围内获得的90.2%。我们的真正例率(TPR)和真负例率(TNR)分别为79.88%和86.73%,比先前研究中的25%和100%更为均衡。ROS的表现优于RUS和SMOTE,成为我们的主要数据平衡方法。在24小时死亡时间范围内使用XGB时,ROS获得了最佳的AUROC值93.72%,RUS为93.61%,SMOTE为91.73%。与Lin等人的研究相比,特征重要性分析显示我们的平衡数据集具有更好的特征重要性影响,尤其是“年龄”和“分诊”这两个特征。
与以往的研究相比,我们的方法在AUROC方面取得了更好的成绩,尤其是在使用XGB和ROS处理较长的死亡时间范围时。我们的方法实现了更均衡的TPR和TNR,这比单纯的AUROC更具实用性。此外,特征重要性分析表明我们的平衡数据集具有更好的特征重要性表现。
在急诊科(ED),准确预测患者死亡率对于提升急诊医疗服务至关重要。目前的预测模型在准确性和实用性方面都存在局限,尤其是在早期识别高风险患者方面。由于死亡样本的数量远少于生存样本,机器学习的效果受到数据质量的严重影响。本研究旨在实现更平衡且更准确的患者死亡率预测,并评估数据平衡方法的有效性。
本研究分析了2008年至2016年间从台湾五家医疗机构收集的2,437,341份非创伤性成人急诊就诊记录,涵盖了四个死亡时间范围:24小时内死亡、72小时内死亡、168小时内死亡以及最终死亡,并评估了三种数据平衡方法:随机欠采样(RUS)、合成少数类过采样技术(SMOTE)和随机过采样(ROS)。我们采用了随机森林(RF)、AdaBoost(ADA)和XG Boost(XGB)作为模型。逻辑回归(LR)作为这些模型的元学习器。此外,我们还基于RF、ADA、带自助法的AdaBoost(ADA-BS)和信息增益(IG)进行了特征重要性分析。
我们使用XGB构建的模型获得了最佳的AUROC值,为91.41%,优于Wu等人使用相同数据集在168小时死亡时间范围内获得的90.2%。我们的真正例率(TPR)和真负例率(TNR)分别为79.88%和86.73%,比先前研究中的25%和100%更为均衡。ROS的表现优于RUS和SMOTE,成为我们的主要数据平衡方法。在24小时死亡时间范围内使用XGB时,ROS获得了最佳的AUROC值93.72%,RUS为93.61%,SMOTE为91.73%。与Lin等人的研究相比,特征重要性分析显示我们的平衡数据集具有更好的特征重要性影响,尤其是“年龄”和“分诊”这两个特征。
与以往的研究相比,我们的方法在AUROC方面取得了更好的成绩,尤其是在使用XGB和ROS处理较长的死亡时间范围时。我们的方法实现了更均衡的TPR和TNR,这比单纯的AUROC更具实用性。此外,特征重要性分析表明我们的平衡数据集具有更好的特征重要性表现。