
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于环境聚类与机器学习模型的流行病预测增强研究:以COVID-19为例
【字体: 大 中 小 】 时间:2025年06月24日 来源:International Journal of Cognitive Computing in Engineering CS13.8
编辑推荐:
本研究针对现有流行病预测模型忽视环境因素影响的问题,创新性地提出融合环境数据的两阶段预测框架。通过K-means聚类分析国家环境特征,结合支持向量回归(SVR)、Prophet和长短期记忆网络(LSTM)模型,证实LSTM在30天COVID-19病例预测中表现最优(RMSE降低10%-15%),为气候敏感的公共卫生决策提供了新工具。
全球COVID-19大流行暴露了传统流行病预测模型的局限性——它们往往忽略环境气候因素对病毒传播的关键影响。意大利学者Conticini等早前发现PM10浓度与疫情严重程度相关,而美国EPA数据表明空气质量指数(AQI)超过200时会加剧呼吸系统疾病风险。这些发现引发思考:温度、湿度和空气污染物是否构成病毒传播的"环境放大器"?现有模型对此缺乏系统性整合,导致预测精度受限。
为破解这一难题,研究人员开展了一项跨学科研究,论文发表在《International Journal of Cognitive Computing in Engineering》。团队采用三阶段方法:首先通过约翰霍普金斯大学和AQICN.org获取全球54国的COVID-19病例与环境数据;其次运用K-means聚类和动态时间规整(DTW)算法划分环境相似区域;最后比较SVR、Prophet和LSTM模型在单变量与多变量预测中的表现。
环境聚类分析
通过30天移动平均处理AQI数据后,研究识别出7个特征性集群。巴西、美国和印度分别归入不同集群,其PM2.5和NO2水平呈现显著差异。箱线图显示,集群2国家(含印度)的AQI波动幅度达47.8%,远高于集群0国家的23.5%,这为后续区域特异性建模奠定基础。
单变量预测对比
在80%训练集上的测试表明,LSTM在三国预测中均保持最低误差(美国RMSE=333.35)。值得注意的是,当印度病例数骤增时,Prophet的MAPE升至0.93,而LSTM仅0.72,显示其对突变模式的捕捉优势。
多变量模型突破
引入7天滞后的环境因子后,LSTM性能进一步提升。美国预测的RMSE从333.35降至229.87,关键归因于模型捕捉到温度与病例数的负相关性(r=-0.681)。相比之下,SVR在印度预测中出现560的RMSE峰值,暴露其处理多维非线性关系的不足。
30天预测验证
通过Prophet预生成未来环境数据输入LSTM,实现30天滚动预测。巴西案例显示,预测值与实际值的MAE为121.69,显著优于传统时序模型。这种"环境-疾病"耦合预测框架,首次量化了PM10每增加10μg/m3可能引发5.8%的病例增长。
该研究开创性地证实:环境聚类可提升12.7%的预测精度,其中LSTM因门控机制(遗忘门、输入门)能有效学习PM2.5等因子的时变影响。尽管未考虑封锁政策等社会因素,但建立的动态AQI-疫情关联模型,为区域性精准防控提供了决策依据。正如作者Yosra Didi所述,这套方法可扩展至流感等气候敏感传染病的早期预警系统,实现从"被动应对"到"环境智能预警"的范式转变。
生物通微信公众号
知名企业招聘