实时预测流行病监测数据中的修订情况

《PLOS Computational Biology》:Real-time forecasting of data revisions in epidemic surveillance streams

【字体: 时间:2025年11月21日 来源:PLOS Computational Biology 3.6

编辑推荐:

  本文提出Delphi-RF框架,通过非参数量化回归实时预测公共卫生数据修订后的最终值,适用于计数和比例数据。实验显示其相比现有方法在准确性和计算效率(提升10-100倍)上表现更优,尤其在处理如抗原检测阳性率等比例数据时效果显著,为实时疫情监测提供可靠工具。

  在面对传染病疫情时,实时数据的准确性对于公共卫生决策至关重要。然而,实际中,许多疫情数据在发布后会不断修订,这种现象通常源于报告延迟(称为“回填”)和其他因素。这些修订可能严重影响对当前疫情态势的理解、预测精度以及后续防控措施的设计。因此,如何有效处理数据修订并生成可靠的时间序列预测成为了一个重要课题。本文提出了一种名为Delphi Revision Forecast(Delphi-RF)的新框架,旨在解决这一问题。该方法采用非参数分位数回归技术,能够处理计数型和比例型数据,并适用于多种时间分辨率和疫情监测数据流。

### 问题背景与挑战

疫情数据的修订现象广泛存在于公共卫生领域,如流感、登革热和新冠病毒(SARS-CoV-2)等。这些数据的修订通常与数据收集、报告机制和行政流程有关,例如,某些地区的疫情数据需要数月时间才能完全回填。这种延迟不仅影响数据的即时可用性,还可能导致预测模型在训练过程中产生偏差,从而降低其准确性。例如,当数据仅基于初步报告进行预测时,可能会高估或低估疫情的真实规模,影响公共卫生机构对疫情趋势的判断和应对措施的制定。

此外,数据修订的动态变化也给模型带来了挑战。例如,当疫情活动出现突变(如Omicron变异株的爆发),传统的预测模型可能难以适应这种变化,导致预测性能下降。因此,需要一种能够灵活应对数据修订动态变化的方法,从而在不依赖特定分布假设的情况下,实现对疫情数据的准确预测。

### Delphi-RF框架介绍

Delphi-RF框架的设计理念是利用历史修订数据来预测最终的疫情数据。该方法的核心在于通过非参数分位数回归技术,对数据修订过程进行建模,并生成最终数据的分布预测。与传统的参数化模型不同,Delphi-RF不假设数据的分布形式,而是通过分位数回归捕捉数据的条件分布,从而在不同时间、地点和数据源之间提供灵活的建模能力。

在模型设计中,Delphi-RF引入了多种特征,包括报告日期的周数效应、参考日期的星期效应、最近的修订值以及修订幅度等。这些特征共同构成了模型的输入,使得Delphi-RF能够捕捉数据修订的复杂动态,并对不同类型的疫情数据(如计数型和比例型)进行建模。此外,该方法还考虑了数据修订的滞后效应,即在预测时,模型会利用过去的数据修订信息,以更准确地估计当前的疫情情况。

### 模型的适应性与灵活性

Delphi-RF框架的一个显著优势是其适应性和灵活性。模型采用固定的目标滞后(target lag)L,该滞后值经过历史数据探索后确定,确保大部分数据修订在该滞后内完成。此外,模型还可以根据数据的更新频率进行调整,例如,在某些情况下,可以设置更短的训练窗口长度,以确保模型能够及时捕捉数据的最新动态。

为了提高模型的稳定性,Delphi-RF引入了衰减参数(decay parameter),该参数用于调整训练样本的权重,使模型更加关注与当前疫情活动相似的历史数据。这一策略有助于模型在面对突发的疫情变化时,仍然能够保持较高的预测精度。同时,模型的模块化设计也使得其在训练和预测之间能够实现分离,从而提高计算效率。

### 实验结果与性能评估

在实验部分,Delphi-RF被应用于多个不同类型的疫情数据,包括美国马萨诸塞州(MA)的每日新冠病例数、来自Change Healthcare的保险索赔数据以及来自Quidel的抗原检测数据。这些数据具有不同的修订模式,使得模型在不同数据集上的表现具有一定的差异。

实验结果显示,Delphi-RF在预测精度上优于传统的Epinowcast和NobBS方法,尤其是在早期修订阶段。例如,在保险索赔数据中,当滞后为14天时,Delphi-RF的预测误差显著低于其他方法。此外,Delphi-RF在计算效率上也表现出色,其运行时间比Epinowcast和NobBS快10到100倍,这使得该方法在大规模实时疫情监测中更具可行性。

在每周数据(如登革热和流感样疾病病例数)的预测中,Delphi-RF同样表现出色。其性能在不同滞后下保持稳定,尤其是在较长的滞后中,预测误差进一步降低。这表明,Delphi-RF不仅适用于每日数据,还能够有效处理每周数据,从而为公共卫生监测提供更全面的支持。

### 特征的重要性与模型鲁棒性

为了进一步验证模型中各个特征的重要性,本文进行了特征消融实验。实验结果表明,所有特征对模型的预测性能都有积极影响,但某些特征在特定数据集上更为关键。例如,在每周登革热数据的预测中,7天移动平均数(7-day moving average)对模型性能的影响最为显著,而在每日新冠病例数的预测中,某些特征(如滞后值和修订幅度)在特定滞后下可能对模型性能产生更大的影响。

此外,模型对超参数的敏感性分析也揭示了其在不同数据集上的表现差异。例如,对于修订过程较慢的数据(如保险索赔和抗原检测数据),使用滞后填充(lag padding)可以提高短期预测的稳定性。然而,对于修订过程较快的数据(如马萨诸塞州的新冠病例数),滞后填充反而可能引入噪声,降低预测精度。因此,模型的性能在很大程度上依赖于数据集的修订动态,这也意味着在实际应用中,需要根据数据的特点进行适当的参数调整。

### 模型的局限性与未来发展方向

尽管Delphi-RF在大多数情况下表现出色,但在某些特殊情况下,其预测性能仍可能受到限制。例如,当疫情活动出现剧烈变化时,模型可能无法及时适应这些变化,导致预测误差增加。此外,当修订模式与历史数据差异较大时,模型的性能也可能受到影响。因此,未来的研究可以探索如何在数据修订过程中引入动态调整机制,例如开发一种修订预警系统,该系统能够检测数据分布的变化,并在修订尚未完成时提供预测质量的估计,从而帮助用户提前采取应对措施。

此外,Delphi-RF的模型设计仍然依赖于历史数据的修订模式,因此,如何处理缺乏历史数据或修订模式不稳定的场景仍然是一个挑战。在这些情况下,模型可能需要依赖更少的假设,或引入更灵活的建模方法,以适应不同的数据环境。同时,模型的计算效率虽然已经显著提升,但在某些大规模数据集中,仍然需要进一步优化,以满足实时监测的需求。

### 总结

Delphi-RF框架为实时疫情数据修订问题提供了一种新的解决方案。通过非参数分位数回归技术,该方法能够有效捕捉数据修订的动态变化,并生成分布型预测,从而提高公共卫生监测的准确性。与现有方法相比,Delphi-RF不仅在预测精度上具有竞争力,而且在计算效率上也表现出显著优势,这使得其在大规模实时疫情监测中具有广泛的应用前景。

未来的研究可以进一步探索如何提高模型在面对突发疫情变化时的适应能力,以及如何在数据修订不充分的情况下提升预测性能。此外,开发更高效的计算方法,以支持更大规模的数据集,也是未来研究的一个重要方向。总之,Delphi-RF为公共卫生数据的实时监测和预测提供了一种实用且高效的工具,有助于提升对疫情的响应能力和决策支持水平。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号