基于可解释机器学习模型预测住院情况:助力疫情下医院管理的关键突破

【字体: 时间:2025年05月06日 来源:Clinical eHealth CS8.1

编辑推荐:

  医院管理在疫情期间面临诸多难题,研究人员开展 “An interpretable machine learning model to predict hospitalizations” 主题研究。利用墨西哥政府数据集训练多种监督学习算法,梯度提升(GB)算法表现最佳,准确率 85.63%,AUC 为 0.8696,为医院管理提供决策依据。

  在全球抗疫的大背景下,医院管理面临着前所未有的挑战。新冠疫情的爆发,使得医院的资源分配、患者管理以及医护人员的调配等工作变得异常艰难。如何在有限的资源下,高效地预测患者的住院需求,合理安排病床和医疗物资,成为了亟待解决的问题。传统的管理模式在面对如此复杂且多变的情况时,显得力不从心。此时,机器学习(ML)技术的兴起,为解决这些难题带来了新的希望。于是,研究人员开展了相关研究,旨在利用机器学习技术预测住院情况,为医院管理提供有力支持,该研究成果发表在《Clinical eHealth》上。
研究人员使用了多种关键技术方法。首先,他们获取了墨西哥政府提供的 COVID-19 墨西哥患者健康数据集(Covid19MPD),该数据集包含 95,840 个实例和 20 个特征 。接着对数据进行预处理,如将 “age” 属性二值化,统一特殊代码等。之后,运用随机森林(RF)、支持向量机(SVM)、K 近邻(KNN)、梯度提升(GB)、多层感知器(MLP)等多种监督学习算法进行模型训练,并采用 10 折交叉验证评估模型性能。还利用特征重要性分析、部分依赖图(PDP)、SHapley Additive exPlanations(SHAP)等方法增强模型的可解释性。

在研究结果方面:

  • 模型性能评估:通过对多种模型的比较,发现 GB 模型表现最佳,其 AUC 达到 0.8696。在验证集上,GB 模型对于 “住院” 类别的预测,精确率为 0.8862±0.0012,召回率为 0.9202±0.0058,F1 分数为 0.9029±0.0032;在测试集上,准确率达到 85.61%。这表明 GB 模型在预测住院情况方面具有较高的准确性和可靠性。
  • 特征重要性分析:利用 RF 进行特征重要性分析,发现 “Pneumonia”(肺炎)是影响模型预测的最重要特征,其特征重要性为 0.5134758。此外,年龄、糖尿病等特征也对模型预测有一定影响。通过消融研究进一步证实,去除肺炎等关键临床属性会导致模型性能显著下降。
  • 模型可解释性分析:通过 PDP 和 SHAP 等方法对 GB 模型进行解释。PDP 显示,肺炎对住院概率影响显著,当肺炎特征为 1 时,住院概率大幅增加;COVID-19 和慢性阻塞性肺疾病(COPD)存在时,住院可能性也有增加,但不如肺炎明显。SHAP 分析表明,年龄和 “another_case” 特征对住院决策影响较大,且女性年龄≥45 岁,同时患有肺炎和 COVID-19 时,住院风险显著增加。

研究结论和讨论部分指出,尽管研究存在一些局限性,如数据不平衡、数据集特征有限等,但机器学习在预测住院情况方面仍具有巨大潜力。GB 模型能够以 85.63% 的准确率和 0.8696 的 AUC 分数预测住院病例。可解释性方法的运用,帮助人们更好地理解模型的决策过程,明确了肺炎等因素在住院预测中的关键作用。这一研究成果对于医院管理意义重大,能够帮助医院管理者提前规划资源,合理安排病床和医护人员,为患者提供更及时有效的治疗。同时,也为后续研究提供了方向,未来可通过获取更广泛的数据集、采用更复杂的预处理方法以及与医学专家紧密合作,进一步提高模型的准确性和适用性,为应对疫情及其他公共卫生事件中的医院管理提供更有力的支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号