基于 XGBoost 机器学习算法的医院门诊量预测研究:环境因素与医疗资源配置的动态关联

【字体: 时间:2025年05月17日 来源:Scientific Reports 3.8

编辑推荐:

  为优化医疗资源配置,研究人员针对医院门诊量受多因素影响的问题,开展基于 XGBoost 算法的门诊量预测研究。对比 SARIMAX 和 RF 模型,发现 XGBoost 预测精度最高,揭示专家数量、气象条件等为关键影响因素,为医院资源规划提供数据支撑。

  
医院门诊量的波动犹如气象预报般复杂,受温度、空气质量甚至专家坐诊数量等多重因素交织影响。精准预测门诊需求不仅能让医院提前调配资源、减少患者等待,更是优化医疗体系效率的关键拼图。然而,传统统计模型如 ARIMA 难以捕捉非线性关系,且多数研究未同时纳入气象、空气质量与医疗资源数据。在此背景下,陆军军医大学大坪医院的研究团队开展了一项具有突破性的研究,相关成果发表在《Scientific Reports》,为破解门诊量预测难题提供了新范式。

研究团队整合 2014 年 1 月 1 日至 2024 年 10 月 31 日的多维度数据,包括中国气象数据网的逐日气象指标(如最高温、PM2.5)、环境监测站的空气质量数据,以及医院信息系统记录的每日门诊量和专家坐诊人数(Clinc-E)。为排除 COVID-19 干扰,特意剔除 2020 年 1 月 23 日至 3 月 23 日数据。研究采用 XGBoost、季节自回归整合移动平均模型(SARIMAX)和随机森林(RF)三种模型进行对比,通过网格搜索(GS)优化参数,并以平均绝对误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)和决定系数(R2)评估性能。

研究结果


数据特征与相关性分析


连续变量的 Shapiro-Wilk 检验显示均不服从正态分布,其中专家数量(Clinc-E)与门诊量的 Spearman 相关系数最高(ρ=0.8),PM2.5、平均温度(Mean-T)等次之,而 NO?相关性不显著。时间因素分析表明,季度、月份、星期几均对门诊量有显著影响(如 Q2 与 Q1、Q4 差异显著,周末与工作日门诊量不同),仅每月日期无显著影响。

模型性能对比


XGBoost 模型在训练集和测试集均表现最优:训练集 MAE 为 324.41,R2 达 0.96;测试集 MAE 为 578.90,R2 为 0.90,均显著优于 SARIMAX 和 RF 模型。特征重要性分析显示,专家数量、星期几、年份、月份、季度、PM2.5 和平均温度是关键影响因素。SHAP 值进一步揭示,专家数量对预测结果呈正向贡献,而 PM2.5 呈负向关联。

环境与医疗资源的交互作用


研究发现,平均温度对门诊量的影响大于最高 / 最低温度,体现了非线性关系的复杂性。尽管 NO?在相关性分析中不显著,但其在 SHAP 分析中显示一定重要性,提示可能存在剂量 - 反应曲线的非线性特征未被传统方法捕捉。此外,周末效应被模型自动整合到星期几的特征中,无需单独编码。

结论与意义


该研究首次将 XGBoost 算法应用于门诊量预测,证实其在处理高维、非线性数据中的优势。关键结论包括:① XGBoost 能有效整合气象、空气质量与医疗资源数据,预测精度显著优于传统时间序列和集成学习模型;② 专家坐诊数量是影响门诊量的核心因素,凸显医疗资源配置的直接作用;③ 气象条件(如平均温度)与空气污染(PM2.5)通过疾病发生机制间接影响就诊需求,为季节性医疗预案提供依据。

研究为医院动态调整专家排班、应对极端天气下的就诊高峰提供了数据驱动的解决方案。例如,在高温或高 PM2.5 时段,可提前增加呼吸科专家号源、储备相关药品;通过分析季度性就诊规律,优化年度人力资源规划。此外,研究揭示的非线性关系和特征交互作用,为后续引入深度学习模型(如 LSTM、Transformer)捕捉复杂时序依赖奠定了基础。尽管研究未纳入 socioeconomic 因素和跨医院验证,但其构建的预测框架已为智慧医疗管理提供了可复制的方法论,有望推动医疗资源从 “被动响应” 向 “主动预测” 转型。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号