
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于序数机器学习方法的英格兰地区COVID-19住院需求预测:天气与流动数据提升模型性能
【字体: 大 中 小 】 时间:2025年09月15日 来源:Epidemics 2.4
编辑推荐:
本研究针对COVID-19疫情期间医疗资源调度对离散化需求预测的迫切需求,开发了一种基于XGBoost的序数机器学习方法,用于预测英格兰地区医院入院等级。研究发现,融入流动数据可显著提升1–4周预测精度,而天气数据改善有限。该方法为公共卫生部门提供了可靠的决策支持工具,助力分级响应机制优化。
COVID-19大流行给全球医疗系统带来了前所未有的压力,尤其在区域层面,医院需要应对因感染波次重叠而导致的医疗需求剧烈波动。传统的连续变量预测模型虽有一定作用,但许多卫生管理者更倾向于使用离散化的需求等级进行决策——类似于天气预报和洪水预警中常用的分级方法。然而,能够生成精确区域级序数预测的有效工具仍然匮乏。
在此背景下,来自英国帝国理工学院公共卫生学院的研究团队在《Epidemics》发表了一项研究,他们开发了一种基于XGBoost的序数机器学习方法,用于预测英格兰国家医疗服务体系(NHS)各区域的COVID-19住院需求等级。该研究不仅利用了常规的流行病学数据,还创新性地整合了天气条件和社区流动数据,系统评估了这些外部因素对预测性能的提升作用。
为了开展这项研究,作者采用了多种关键技术方法。首先,他们收集并整合了多源数据,包括来自GOV.UK的流行病学数据(医院入院、病例和死亡数据)、欧洲中期天气预报中心(ECMWF)的ERA5再分析天气数据(气温和降水),以及Google的社区流动趋势数据(涵盖零售娱乐、公园、交通站点等七类地点)。所有数据均按NHS区域进行周度聚合与人口标准化。其次,研究采用两种离散化方法(n分位数法和n均匀区间法)将每十万人住院率转换为3、5或10个等级的序数变量。核心建模方法为经过Frank & Hall方法改进的XGBoost序数模型,该方法将k类序数问题转化为k-1个二元分类问题,以利用等级间的顺序信息。模型训练采用扩展窗口法,使用2020年3月至2021年12月的数据进行训练,并预测2022年全年的住院等级。预测评估严格遵循实时预报原则,采用宏平均平均绝对误差(mMAE)和准确率作为主要指标,并与仅使用流行病学数据的有序逻辑回归(OLR)和朴素模型进行对比。
研究结果部分通过多个维度展示了模型的性能与发现。
3. Results
研究结果显示,英格兰各地区COVID-19住院需求存在显著波动,尤其是在Alpha、Delta和Omicron变异株流行期间。使用n分位数法定义的序数等级能够更好地区分不同严重程度的需求阶段,而n均匀区间法则导致绝大多数观察值集中在较低等级,无法有效识别高需求时期。因此,研究选择n分位数法作为主要的离散化方法。
在预测性能方面,仅使用流行病学数据的XGBoost序数模型在1至4周预测中均优于基线模型(OLR和朴素模型)。加入天气数据后,模型性能略有提升,但改善幅度有限。相比之下,引入流动数据则带来显著提升,尤其是在较长预测 horizon(3-4周)中。当同时加入天气和流动数据时,模型表现与仅加入流动数据时相似,表明流动数据是性能提升的主要驱动因素。
模型在不同等级数量下的表现也得到验证。当使用10个等级时,XGBoost序数模型相比基线模型的优势更加明显,准确率最高提升超过15%。特征重要性分析显示,历史住院等级、COVID-19病例数、气温、零售娱乐场所流动变化和死亡数是前五大重要预测因子。
区域特异性分析表明,所有七个NHS地区均从未自流动数据的加入中获益,其中英格兰东部和东南部地区的改善尤为显著。例如,在4周预测中,加入流动和天气数据后,mMAE降低了32.6%。可视化对比进一步证实,融合流动数据的模型能更准确地捕捉峰值需求,而仅依赖流行病学数据的模型则表现出明显的滞后性。
4. Discussion
本研究系统评估了利用多源数据提升区域级COVID-19住院需求序数预测的性能。结果表明,流动数据是提高预测精度的关键因素,而天气数据的作用相对有限。这一发现与多项前期研究一致,进一步证实了人类行为变化(通过流动数据体现)对传染病传播动态的直接影响力。
研究的创新点在于首次将序数机器学习方法应用于COVID-19住院预测,并明确了离散化方法选择对模型性能的影响。n分位数法因能更好地处理流行病学数据的偏态分布,而被证明优于均匀区间法。此外,研究采用的Frank & Hall序数转换方法有效利用了等级间的顺序信息,提升了预测准确性。
然而,研究也存在一些局限性。首先,依赖的Google流动数据已于2022年10月停止更新,这限制了模型在未来的应用。其次,COVID-19检测政策的变更可能导致病例数据质量随时间波动,影响预测稳定性。此外,未能纳入非药物干预(NPIs)和疫苗接种数据也一定程度限制了模型的解释力。最后,回顾性研究设计未能完全模拟实时预测中的数据处理挑战(如报告延迟与回溯修订)。
尽管存在这些限制,该研究为未来突发公共卫生事件中的预测工具开发提供了重要借鉴。其方法论框架可扩展至其他传染病或需分级响应的健康危机中。作者建议,未来研究应探索动态阈值设定方法,并整合更多行为与干预数据,以进一步增强模型的鲁棒性与实时适用性。
综上所述,这项研究不仅证实了序数机器学习方法在卫生需求预测中的有效性,还突出了流动数据作为关键预测因子的价值。它为区域卫生资源调度提供了可靠的工具,有助于决策者在未来疫情中更精准、更及时地应对波动需求。
生物通微信公众号
知名企业招聘