编辑推荐:
这篇综述聚焦疾病预测,梳理了可能引发未来大流行病的病原体,如冠状病毒、埃博拉病毒等。探讨多种预测模型(如机械模型、机器学习模型)及数据来源,分析现有局限,强调构建整体预测系统对提升大流行病防范能力的重要性。
引言
大流行病会对全球医疗系统造成冲击,疾病预测有助于规划应对措施。预测需明确目标变量,考虑数据类型和局限性,选择合适算法并处理不确定性。现有预测研究常忽略影响疾病传播的因素,而整体预测系统应综合多源数据,这对大流行病防范至关重要。
文献检索
通过在 Google Scholar 和 MEDLINE 数据库中检索相关术语,筛选出 123 篇符合标准的同行评审论文,主要参考每个病原体、模型和数据来源组合中最新且相关的文献。
病原体
识别未来可能引发大流行病的病原体是预测系统的关键。
- 空气传播病原体:像冠状病毒(如 SARS-CoV-2、SARS-CoV-1、MERS-CoV)、流感病毒(如流感 A(H5N1))、结核分枝杆菌等。冠状病毒常源于动物,流感病毒易变异,而结核病致死率高且耐药问题严峻。
- 接触污染液体或表面传播的病原体:如埃博拉病毒、马尔堡病毒、拉沙病毒、猴痘病毒(Mpox virus)等。这些病毒致死率高或对特定人群有风险,且传播范围在扩大。
- 媒介传播疾病(VBD):由蚊子、蜱虫等传播,如疟疾、登革热、寨卡热等。全球化和气候变化使这类疾病分布改变,威胁全球健康。
疾病预测模型
常用计算和数学模型可分为机械模型和机器学习模型,也有集成和混合模型。
- 机械模型
- ** compartmental 模型 **:将人群分为不同疾病状态的隔间,如易感(S)、感染(I)、康复(R)等。通过个体在隔间间的移动模拟病原体传播,如 SIR 模型及其扩展。可结合湿度等数据,利用状态重置和数据同化提高准确性,但难以应对疾病传播的突然变化,新疾病的初始参数也可能不准确。
- ** agent - based 模型 **:关注个体行为和相互作用,模拟疾病传播时考虑疾病特征和个体易感性因素,可评估非药物干预措施的影响,但计算量大,且感染和易感个体接触率的估计可能不准确。
- 机器学习模型
- 统计学习模型:如自回归模型(如 ARIMA 及其扩展)、线性回归(LR)、多项式回归、Cubist 回归、支持向量回归(SVR)、随机森林回归(RFR)、eXtreme gradient boosting(XGBoost)、逻辑回归、K - 最近邻(KNN)等。能处理复杂数据集,但部分模型难以处理非线性关系,数据预处理复杂,预测不确定性会随时间增加。
- 深度学习模型:基于人工神经网络(ANN),有多层隐藏层,可处理复杂大数据集,如多层感知器(MLP)、长短期记忆(LSTM) - 基于的循环神经网络(RNNs)、堆叠长短期记忆(SLSTM)、卷积神经网络(CNN)、图神经网络(GNN)等。在疾病预测中应用广泛,但计算量大、训练时间长、数据要求高。
- 集成和混合预测模型:集成模型结合多个模型预测结果,分配权重以提高准确性;混合模型则将不同类型模型结合,如结合机器学习 / 深度学习算法和 ARIMA 模型,或机械模型与学习方法结合形成半机械模型,以捕捉数据中的不同特征。
大流行病预测的数据来源
疾病预测使用多种数据来源。
- 流行病学数据:包括病例、康复和死亡数据,多以时间序列呈现,是早期预警系统的一部分。动物疾病监测和环境监测数据也很重要,动物疾病监测有助于了解人畜共患病,环境监测可通过废水检测病原体。
- 互联网查询和社交媒体数据:能弥补流行病学数据的延迟问题,用于症状监测和预测疾病传播,还可监测公众对干预措施的接受度和消除错误信息。
- 移动性数据:人类移动影响疾病传播,长途和短途移动数据可从不同渠道获取,用于预测疾病传播风险。
- 气候数据:气候条件影响疾病分布和传播,如温度、降水等影响人类行为和病媒,厄尔尼诺南方涛动(ENSO)现象与疾病传播相关,气候变化可改变病原体分布和传播季节。
- 基因组数据:有助于了解病原体进化、起源和传播动态,可预测病原体特征变化,新一代测序(NGS)技术使基因组数据更丰富。
- 图像数据:成像技术用于疾病诊断和预测疾病进展,图像数据分析可识别病原体、研究其感染机制,与其他数据结合可改进大流行病预测模型。
未来展望
当前疾病预测面临挑战,如数据来源有限、数据可用性问题、模型假设不现实等。理想模型应采用更现实假设、量化不确定性、适应新数据并考虑行为变化和控制措施的影响。整合多源数据的整体预测系统有望提高预测准确性,深度学习或混合模型是数据整合的理想选择,但仍需探索其可行性。
结论
疾病预测对疫情防控和准备至关重要,准确预测可阻止病原体传播、合理分配资源并减少经济社会影响。成功的预测应关注疾病出现、传播和扩散,采取 “同一健康” 方法控制媒介传播疾病。多部门合作对将预测纳入决策和向公众传达信息至关重要,持续模型测试和数据管理有助于预防未来大流行病。