关于手足口病预测的时间序列基础模型的比较研究:TimesFM、Moirai与传统方法

《Frontiers in Public Health》:A comparative study of time series foundation models for hand, foot, and mouth disease forecasting: TimesFM, Moirai, and traditional approaches

【字体: 时间:2025年09月26日 来源:Frontiers in Public Health 3.4

编辑推荐:

  HFMD预测中比较ARIMA、LSTM与TimesFM、Moirai性能,发现TimesFM-500M在5步预测中表现最佳,但10步预测时需更大历史数据。基础模型零样本优势显著,但计算资源需求高。结论为时序基础模型有效,需权衡资源投入。

  手足口病(HFMD)是一种在亚洲-太平洋地区常见的儿童传染病,主要由人肠道病毒引起。该病通常表现为发热、口腔溃疡以及手足部位的皮疹,大多数患者症状较轻,可在一周内自然恢复,但少数严重病例可能导致危及生命的并发症。过去二十年中,HFMD在全球范围内引发了多次疫情,尤其是在亚洲-太平洋地区。因此,准确的预测模型对于提升疾病监测能力、指导医疗资源分配以及制定针对性的预防策略至关重要。

本研究旨在比较两种时间序列基础模型(TimesFM和Moirai)与传统方法(ARIMA和LSTM)在预测HFMD疫情方面的表现。研究团队使用了来自韩国、新加坡和中国重庆市的数据集,分别覆盖了2015年至2024年、2012年至2018年以及2015年至2024年的每周病例数据。通过对不同预测步长(1步、5步、10步)和不同回溯窗口长度(50步和100步)的实验,评估了模型的预测准确性和计算资源需求。

传统的时间序列预测方法如ARIMA和LSTM在HFMD预测中已有广泛应用。ARIMA模型通过差分和移动平均来捕捉时间序列的趋势和周期性,适用于短期预测。然而,它在处理复杂的非线性关系和长期依赖性方面存在局限。相比之下,LSTM网络因其门控结构能够有效保留或遗忘信息,更适合处理长期时间序列数据。尽管如此,LSTM模型在训练和预测过程中需要大量的数据和计算资源,这对实际应用提出了挑战。

近年来,研究人员开发了多种时间序列基础模型(TSFMs),这些模型通过大规模跨领域预训练来提取通用特征,从而适用于复杂和异构的预测任务。TSFMs作为基础构建模块,能够直接用于预测、分类、异常检测和填补缺失数据等任务,其优势在于仅需少量数据即可实现良好的预测效果,并且可以通过微调进一步提升性能。其中,Moirai和TimesFM是两种代表性的时间序列基础模型。Moirai基于掩码编码器架构,通过预训练在LOTSA数据集上,该数据集包含来自医疗、气象、经济和交通等领域的270亿个观测数据,包括新冠疫情期间的数据。Moirai的目标是重建随机掩码的时间序列段,从而捕捉全局上下文和局部时间模式。TimesFM则采用自回归解码结构,通过生成未来序列来学习时间模式和上下文关系,支持动态预测和长序列生成,尤其在零样本和少样本学习场景中表现出色。

本研究首次将这些时间序列基础模型应用于HFMD的预测任务中,并与ARIMA和LSTM进行了对比。结果显示,在单步预测任务中,ARIMA和Moirai的表现相当,均在三个数据集中取得了较高的预测精度。对于五步预测任务,TimesFM-500M在所有数据集中表现最佳,尤其是在使用100周回溯窗口时,其预测能力显著提升。而在十步预测任务中,TimesFM-200M表现良好,但随着回溯窗口长度的增加,其性能有所下降。这些结果表明,时间序列基础模型在某些预测场景中具有更强的适应性和准确性,但其计算资源需求也相对较高。

研究团队使用了统一的训练和测试环境,确保了实验的可比性。所有模型均在相同的硬件配置(NVIDIA RTX 4090 GPU和24GB内存)和软件环境(Python 3.10、Sklearn、Statsmodels、PyTorch等)下运行。此外,为了评估模型性能,研究团队采用了均方根误差(RMSE)和平均绝对误差(MAE)作为主要指标。这些指标从不同角度衡量了模型的预测能力,帮助研究人员全面了解模型在不同数据集和预测步长下的表现。

数据集的描述显示,韩国的数据集包含524个数据点,每周平均病例数为12.41 ± 23.71;新加坡的数据集有365个数据点,每周平均病例数为644.96 ± 273.29;中国重庆市的数据集包含518个数据点,每周平均病例数为282.43 ± 324.67。这些数据集在时间分布和病例波动上存在差异,为模型性能的对比提供了多样化的测试条件。

在单步预测任务中,当回溯窗口为50周时,ARIMA和Moirai在三个数据集中均表现出色,预测误差相近。而在回溯窗口为100周的情况下,TimesFM-500M在韩国数据集上取得了更低的RMSE,而Moirai-Base在新加坡数据集上表现最佳。这表明,不同模型在不同数据集上的表现可能因数据特征而异,但总体而言,时间序列基础模型在捕捉长期趋势和复杂模式方面具有优势。

五步预测任务的结果进一步支持了这一结论。在新加坡数据集中,TimesFM-500M在50周回溯窗口下表现最佳,而在100周回溯窗口下,其预测能力显著提升。韩国和中国重庆市的数据集也显示出类似的趋势,TimesFM-500M在五步预测任务中表现突出,尤其是在使用较长的回溯窗口时。这表明,时间序列基础模型在处理多步预测任务时,能够更好地利用历史数据中的信息,从而提高预测精度。

十步预测任务的结果则呈现出不同的情况。在50周回溯窗口下,TimesFM-200M在韩国和中国重庆市的数据集中表现最佳,而在新加坡数据集中,其性能略逊于LSTM。然而,当回溯窗口增加到100周时,所有TimesFM模型的预测能力均有所下降。这一现象可能与模型在处理长期预测时的结构限制有关,表明时间序列基础模型在某些情况下可能无法充分适应更长的预测周期。相比之下,LSTM在十步预测任务中表现较为稳定,尤其在新加坡数据集中,其预测误差低于TimesFM-200M。

总体而言,时间序列基础模型在HFMD预测中展现出良好的潜力,尤其是在处理较长的预测周期和复杂的数据模式时。然而,它们对计算资源的需求较高,这在实际应用中可能成为限制因素。相比之下,传统方法如ARIMA和LSTM虽然在某些情况下表现稳定,但需要更多的参数调优和数据支持,且在处理长期依赖性和非线性关系时存在局限。因此,模型的选择应根据具体的应用场景和资源条件进行权衡。

研究还指出,时间序列基础模型的性能可能与其架构设计有关。例如,TimesFM的解码器结构使其在长序列生成和动态预测方面具有优势,而Moirai的掩码编码器结构则有助于捕捉全局和局部的时间模式。这些设计特点使得基础模型在某些预测任务中表现出色,尤其是在零样本预测场景中,无需额外的微调即可直接应用于新的数据集,这为实际应用提供了便利。

尽管时间序列基础模型在HFMD预测中表现良好,但研究也存在一定的局限性。首先,研究的地理范围较为有限,仅涵盖了韩国、新加坡和中国重庆市的数据,这可能影响模型的泛化能力。其次,研究未涉及不确定性量化,即未能评估模型预测结果的置信度,这在公共卫生决策中具有重要意义。此外,研究未测试模型在有限计算资源下的表现,这在实际部署中可能是一个关键考量因素。

未来的研究可以进一步优化模型架构,探索其在其他传染病预测中的应用,并结合多源数据(如环境、气候和社会经济数据)来提高预测的准确性和全面性。此外,对模型的不确定性量化和资源效率优化也是值得深入探讨的方向。通过这些改进,时间序列基础模型有望在公共卫生领域发挥更大的作用,为疾病的早期预警和防控策略提供更加可靠的技术支持。

总之,本研究揭示了时间序列基础模型在HFMD预测中的潜力,特别是在零样本预测和多步预测任务中。虽然这些模型需要更多的计算资源,但它们的通用性和适应性为公共卫生监测和干预提供了新的思路和技术手段。随着计算能力的提升和模型优化的推进,时间序列基础模型有望在未来成为疾病预测的重要工具,为全球公共卫生体系的建设和发展做出贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号