编辑推荐:
COVID-19 疫情对全球健康威胁巨大,新加坡疫情形势严峻。研究人员开展基于机器学习的新加坡 COVID-19 疫情趋势时间序列分析与预测研究,结果显示 LSTM 模型表现最佳。该研究为新加坡及周边地区防疫提供依据。
2019 年末,新冠病毒(SARS-CoV-2)引发的 COVID-19 疫情突如其来,迅速在全球蔓延,给人类健康和社会经济带来了前所未有的冲击。这场疫情如同一场没有硝烟的战争,波及全球 200 多个国家和地区。截至 2023 年 10 月 11 日,全球确诊病例超过 771 million,死亡近 7 million;新加坡在 2020 年 1 月 3 日至 2023 年 10 月 11 日期间,也有大约 250 万确诊病例和近 2000 例死亡病例 。
疫情的发展态势复杂多变,病毒不断变异,出现了 Alpha(B.1.1.7)、Beta(B.1.351)、Gamma(P.1)、Delta(B.1.617.2)和 Omicron(B.1.1.529)等多种变异株,其传播力和毒力都有所改变。Omicron 变异株的出现,更是导致 2022 年 2 - 3 月全球疫情大幅反弹,新加坡在 2022 年 4 月也迎来了病例高峰。面对如此严峻的形势,准确预测疫情趋势变得至关重要。然而,传统的预测方法存在诸多不足。统计方法依赖样本子集预测整体趋势,个体样本差异使其预测准确性受限;经典的动力学模型,如 SIR(Susceptible-Infected-Recovered)模型和 SEIR(Susceptible-Exposed-Infected-Recovered)模型,虽然在疫情早期有一定作用,但在复杂的现实场景中,难以准确预测病毒传播,且理论参数与实际情况难以契合。
为了攻克这些难题,探索更精准的疫情预测方法,研究人员开展了基于机器学习的新加坡 COVID-19 疫情趋势时间序列分析与预测研究。该研究成果发表在《Computer Methods and Programs in Biomedicine Update》上,为全球抗疫提供了重要参考。
在研究方法上,研究人员使用了世界卫生组织提供的新加坡 COVID-19 新增和累计确诊病例数据集,时间跨度从 2020 年 1 月 5 日至 2024 年 1 月 21 日,以周为单位进行数据汇总。研究的关键技术方法主要包括:采用长短期记忆网络(Long Short-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)以及两者结合的复合模型(LSTM-GRU)进行预测。LSTM 是一种特殊的递归神经网络(Recurrent Neural Network,RNN),具有多个门结构,能够有效捕捉长短期信息,解决了传统 RNN 训练过程中的梯度消失问题;GRU 则是 LSTM 的变体,网络结构相对简化 。同时,研究人员运用平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)、平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error,RMSE)和决定系数(R2)等指标来评估模型性能。
在研究结果方面:
- 模型性能比较:研究人员将数据按 6:4 的比例划分为训练集和测试集,训练完成后用模型预测测试集数据。结果显示,在新加坡 COVID-19 数据集上,单个模型的表现优于复合模型。其中,LSTM 模型的表现又优于 GRU 模型。LSTM 模型的 MAPE 为 11.154,MAE 为 2596.146,RMSE 为 2886.58,R2为 0.9143;GRU 模型的 MAPE 为 15.700,MAE 为 2802.027,RMSE 为 3168.097,R2为 0.8969;LSTM-GRU 复合模型的 MAPE 为 13.682,MAE 为 3014.133,RMSE 为 3418.391,R2为 0.8799。这表明 LSTM 模型在捕捉新加坡 COVID-19 数据的复杂模式和长期依赖关系方面具有独特优势。
- 疫情趋势预测:LSTM 和 GRU 模型均预测新加坡未来四周新增病例数呈逐渐下降趋势。这可能是由于多种因素共同作用,如政府采取的防控措施,包括重新开放专门的治疗设施、鼓励民众接种加强针等;公众防疫意识提高,积极采取预防措施;以及季节性变化等因素。
在结论与讨论部分,该研究明确了 LSTM 模型在预测新加坡每周新增 COVID-19 病例方面的有效性,其在捕捉数据的长期依赖关系和非线性模式上表现出色,这对于公共卫生规划和资源分配具有重要意义。准确的疫情预测可以帮助政府和卫生部门合理调配医疗资源,如医院床位、医护人员和疫苗等,提前做好应对准备。同时,政策制定者也能根据预测结果评估现有防控措施的有效性,及时调整策略,从而更有效地控制疫情传播。
然而,研究也指出了未来的研究方向。一方面,可以纳入更多外部因素,如政府政策、疫苗接种率和社会经济变量等,以进一步提高预测准确性,更全面地了解疫情动态。另一方面,可以对模型进行优化,尝试其他架构,如基于 Transformer 的模型,或结合注意力机制,同时通过微调模型参数和探索迁移学习等技术,提升模型性能。此外,将该模型应用于其他国家或地区,有助于比较不同地区的 COVID-19 疫情趋势,为全球健康规划提供参考。开发实时预测模型,使其能快速适应新数据,可增强决策的及时性,更迅速地应对疫情爆发。确保模型具备良好的可扩展性,能够处理更大规模的数据集和不同类型的疫情,将进一步提高其在全球健康防范中的应用价值。
总的来说,这项研究为 COVID-19 疫情预测提供了重要的参考依据,虽然仍有改进空间,但为后续研究和全球抗疫工作奠定了坚实基础,有望在未来更好地应对类似的健康危机。