《BMC Artificial Intelligence》:Hybrid multi-disease SEIR and transformer models for infectious disease forecasting in Zambia
编辑推荐:
传统传染病模型如易感-感染-恢复(SIR)和易感-暴露-感染-恢复(SEIR)长期以来为流行病学家理解疫情动态提供了重要工具。然而,这些模型在捕捉多种并发感染现实方面存在不足,尤其在赞比亚等国家,COVID-19、霍乱、流感、麻疹、炭疽和腮腺炎等疾病往往共存。
传统传染病模型如易感-感染-恢复(SIR)和易感-暴露-感染-恢复(SEIR)长期以来为流行病学家理解疫情动态提供了重要工具。然而,这些模型在捕捉多种并发感染现实方面存在不足,尤其在赞比亚等国家,COVID-19、霍乱、流感、麻疹、炭疽和腮腺炎等疾病往往共存。赞比亚使用的大多数流行病学模型聚焦于单一疾病,未能捕捉疾病相互作用、合并感染及免疫抑制效应,导致预测不准确和公共卫生资源分配低效。本研究旨在开发一种混合疾病预测框架,将扩展SEIR模型与机器学习(ML)相结合,特别是基于Transformer的人工神经网络(ANN),以改善赞比亚的多疾病暴发预测。先前研究已提出对SEIR模型进行修改以适应多种感染,也有研究证明了将ANN等ML技术整合以提高非线性、实时疫情背景下预测准确性的有效性。然而,很少将这些进展应用于赞比亚等资源受限环境,此类环境中多种疫情经常重叠。本研究聚焦于赞比亚流行的六种疾病,将历史感染数据(2020–2023年)与温度、降雨量和湿度等环境变量相结合。研究人员开发了包含合并感染动态、相互作用项和可变传播率的扩展SEIR模型,并将其整合入基于Transformer的ANN中,使用2020至2022年数据进行训练,2023年数据进行测试。模型通过均方根误差(RMSE)、平均绝对误差(MAE)、决定系数(R2)和平均绝对百分比误差(MAPE)进行评估,比较了基线SEIR、仅ANN和混合模型三种方法下的单疾病和多疾病版本。结果显示,整合多种疾病提高了预测准确性。在双疾病模型中,多疾病SEIR模型将RMSE从593.138降低至557.065。混合模型优于仅SEIR和仅ANN模型,将RMSE从单疾病混合的409.267降低至多疾病混合的387.845。当扩展至全部六种疾病时,混合模型对COVID-19、腮腺炎、麻疹和霍乱持续优于单疾病模型。例如,COVID-19混合模型显示出显著的RMSE改进,从单疾病的0.541降至多疾病的0.210。
本研究源于传染病预测领域长期存在的方法论挑战与公共卫生需求。传统房室模型如SEIR(Susceptible–Exposed–Infectious–Recovered,易感-暴露-感染-恢复)框架在单一疾病暴发预测中具有坚实的理论基础,但其确定性结构难以适应现实世界中多种病原体同时传播、疾病间存在复杂相互作用的复杂场景。赞比亚作为热带亚热带国家,2020至2023年间COVID-19、流感、麻疹、腮腺炎、霍乱和炭疽六种疾病同时流行,对同一医疗系统构成叠加压力。然而,该区域既往研究多集中于疟疾或COVID-19等单一疾病,采用单疾病模型无法充分解释病原体间的交叉免疫、免疫抑制及共享干预效应等关键流行病学现象,这种局限性不仅低估了整体疾病负担,还导致公共卫生准备不足和资源错配。与此同时,非洲国家普遍面临的数据不一致、漏报等问题,以及传统模型难以处理非线性动态的技术瓶颈,进一步凸显了开发新型预测方法的必要性。
在此背景下,研究人员开展了基于混合模型的多疾病预测研究,其核心目标为:构建融合扩展SEIR框架与先进ML技术的混合预测模型;利用病原体间相互作用效应提升与传统单疾病模型相比的预测性能;并采用赞比亚历史流行病学记录对框架进行实证验证。本研究最终发表于《BMC Artificial Intelligence》,为多疾病流行病学建模提供了重要的方法论参考和实践指导。
研究采用的数据来源包括:COVID-19数据来自赞比亚传染病研究中心(CIDRZ)、美国疾病控制与预防中心(CDC)及世界卫生组织(WHO)官方网站的每日感染读数;霍乱、流感、麻疹、炭疽和腮腺炎数据来自赞比亚国家公共卫生研究所(ZNPHI);环境数据(温度、降雨量、湿度)来自VisualCrossing.com数据库的日度记录。样本时间跨度为2020年至2023年,训练集为2020至2022年数据,2023年数据用于测试。
研究人员运用的主要关键技术方法包括以下方面。在研究路线上,构建了一种基于扩展多疾病SEIR模型与基于Transformer的人工神经网络(Transformer-based ANN)相结合的混合预测框架,通过联合建模实现多种疾病动态的同时捕获。在建模策略层面,SEIR框架层面引入了疾病特异性暴露和感染房室及显式合并感染房室,采用常微分方程(ODE)组描述原发性感染与继发性感染的生物学路径,并基于文献信息合并正则化策略估计共感染系数(λ
ij),以区分交叉免疫、免疫抑制和共享干预效应三种生物学机制;同时整合温度、降雨量、湿度等环境变量作为共享驱动因素。在机器学习层面,采用基于多头自注意力机制(multi-head self-attention)的Transformer架构捕获长程跨疾病依赖关系和非线性动态,避免循环神经网络中的梯度消失问题;输入特征包括SEIR预测输出、滞后病例计数、环境变量及季节性傅里叶项。在模型评估与解释层面,采用均方根误差(RMSE)、平均绝对误差(MAE)、决定系数(R2)和平均绝对百分比误差(MAPE)进行性能评估,并应用SHapley Additive exPlanations(SHAP)方法对特征重要性进行量化解释。
研究结果部分涵盖以下多个方面。
在数据准备与预处理方面,研究人员实现了连续性保持的插补策略:COVID-19和环境数据为日度格式且内部一致性强;ZNPHI提供的其他五种疾病数据仅存在周度汇总,存在频繁缺失。对于不超过2周的短缺口采用插值法,更长的缺口采用季节性均值或多重插补而非零值填充,以降低人为零值带来的偏倚。比较分析表明,不同插补策略下预测准确性变化小于5%,验证了混合模型对合理插补策略的稳健性。特征工程构建了滞后发病变量、交互项(如温度×降雨量)和季节性傅里叶分量。
在扩展SEIR模型方面,研究人员通过Python的scipy.optimize.curve_fit()函数实现曲线拟合,以优化传输率(β)参数。在COVID-19与流感的双疾病预测中,多疾病SEIR模型将RMSE从单疾病的593.138降至557.065,表明纳入流感改善了模型拟合;但该框架对全部六种疾病的扩展应用中,仅COVID-19和腮腺炎在基线SEIR扩展后显示出改善,这与后两者具有更高质量的数据集相关。
在Transformer ANN模型方面,单疾病与多疾病版本的比较显示,部分仅Transformer模型出现负R2值,反映了模型灵活性与有限周度数据量之间的不匹配,凸显了纯数据驱动模型的过拟合风险双疾病实验中多疾病Transformer未优于单疾病版本(RMSE:387.198 vs. 376.891);但扩展至六种疾病后,多疾病Transformer在所有结局上均优于单疾病对应模型,说明ANN架构从完整跨疾病特征集中获益显著。
在混合模型方面,双疾病设置(COVID-19与流感)中,混合模型RMSE为387.845,低于单疾病混合的409.267,且优于SEIR和Transformer单独模型;反向验证预测流感时RMSE更低(28.952),证明了模型的灵活性与泛化能力。六种疾病全框架下,多疾病混合模型在四种疾病上优于单疾病模型,COVID-19、流感、霍乱、腮腺炎和麻疹均从混合整合中受益,仅炭疽因数据过于稀疏而表现较差代表案例中,COVID-19混合模型的RMSE从单疾病的0.541显著降至多疾病的0.210。
在SHAP可解释性分析方面,滞后两周的腮腺炎病例是最重要的预测因子(SHAP值=109.16),其次为滞后一周的COVID-19病例(105.82)。流感滞后病例、周湿度及霍乱滞后病例也排名靠前。SEIR预测特征的贡献较为边缘(0.43),表明尽管机制结构稳定了学习过程,模型更倾向于依赖数据驱动的滞后信号。环境变量的相对贡献低于滞后流行病学特征,但其纳入通过捕获外生性传播驱动因素提高了模型稳定性和泛化能力,尤其针对霍乱和炭疽等气候敏感性疾病。
讨论与结论部分,研究人员系统阐述了研究发现的理论与实践意义。首先,研究证实了将扩展SEIR模型与ML方法相结合可为疫情预测提供更强大、灵活和适应性强的途径。基线SEIR模型通过曲线拟合可提供有用的机制性见解并生成增强ML性能的合成数据;ML模型在预测未来暴发时持续优于扩展SEIR模型,验证了数据驱动模型捕获非线性能力的优势;而混合模型则兼具流行病学理论可解释性与现代计算学习的适应性。其次,数据质量对模型性能具有关键影响。COVID-19和腮腺炎因数据一致性较高,其基线SEIR表现优于其他疾病;但鉴于现实监测数据的不一致性,与ML的混合化仍至关重要。第三,研究发现的某些流行病学关联值得深入探究。滞后腮腺炎病例对COVID-19预测的显著影响可能涉及疫苗诱导免疫的交叉保护、非药物干预的共享效应等机制,这与"同一健康"(One Health)框架下人类、动物和环境健康相互关联的理念相契合。第四,研究承认ML模型存在计算需求和可解释性挑战,可能阻碍缺乏先进技术专长的流行病学家的采用;但混合模型通过将流行病学可解释性嵌入ML管道,在科学有效性和计算适应性之间取得了平衡。最后,研究指出2020至2023年间的COVID-19疫情及关联公共卫生措施虽未显式参数化,但其效应通过时间序列结构间接嵌入模型;模型通过结构化的跨疾病关系而非固定疫情曲线进行学习,使其可适用于COVID-19之外的情境,并可通过当地监测数据重新校准以适应其他地理环境。
研究结论部分翻译如下:本研究已证明,将扩展SEIR模型与机器学习相整合,特别是在多疾病混合配置中,可增强赞比亚疫情预测的预测性能。合并感染动态和疾病相互作用的纳入揭示了新的流行病学关联,如腮腺炎对COVID-19的明显预测作用,这些关联值得进一步研究。未来研究应通过使用直接来自实验室或临床研究的合并感染参数测试混合模型,并在实时操作环境中验证模型,以在这些发现基础上进一步发展。通过超越单疾病框架,流行病学能够更好地反映现实世界卫生系统的复杂性,并提高对未来疫情的准备。因此,研究人员建议赞比亚公共卫生系统遵循"同一健康"战略,投资于混合多疾病预测工具的采用和规模化,以加强疫情准备和应对能力。