ARIMA与FB-Prophet时间序列模型在乌干达国家和区域疟疾发病率预测中的性能比较
【字体:
大
中
小
】
时间:2025年09月26日
来源:Malaria Journal 3
编辑推荐:
为解决乌干达疟疾发病率的随机性给资源分配带来的挑战,研究人员开展了ARIMA与FB-Prophet时间序列模型的比较研究。结果显示,ARIMA模型在国家层面及14/15区域预测中优于FB-Prophet(MAE=0.007 vs 0.01,MAPE=31.2 vs 47.8),两种模型均可为疟疾防控资源配置提供精准预测支持。该研究为疟疾流行地区的公共卫生决策提供了重要技术工具。
在撒哈拉以南非洲地区,乌干达承担着全球第三大疟疾负担,占全球病例的5%。由于疟疾发病率的随机性特征,预防措施、快速诊断测试和化学治疗药物的资源分配成为重大挑战。尽管过去二十年已投入数十亿美元资金,疟疾仍在乌干达95%以上地区高度流行。2022年该国报告了超过950万病例,创下历史新高,这对国家及地区层面的公共卫生系统物流能力提出了严峻考验。
为了解决这一挑战,乌干达卫生部于2023年通过事件指挥系统(ICS)成立了国家工作组,旨在缓解疟疾病例的急剧上升。然而,由于疟疾发病的不可预测性,如何将诊断和治疗物资精准配送到最需要的地区始终是个难题。因此,对疟疾发病率进行更精确的特征描述和预测,将为公共卫生当局提供宝贵见解。
在此背景下,研究人员在《Malaria Journal》发表了这项创新研究,首次系统比较了自回归移动平均(ARIMA)模型和Facebook开源的广义加法模型FB-Prophet在乌干达国家和区域层面疟疾发病率预测中的性能表现。
研究采用District Health Information Software 2(DHIS2)系统收集的2020-2023年乌干达全国和15个区域的疟疾发病数据,使用R统计软件分别构建ARIMA和FB-Prophet时间序列模型。训练集和验证集分别包含41个月和6个月的数据,模型性能通过平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)三个关键指标进行评估。
研究发现,乌干达全国疟疾发病率从2021年的200.5例/千人年上升到2022年的265.4例/千人年。2020年全国报告病例9,556,200例,年发病率为230.1例/千人;2021年略有下降至8,567,985例,发病率200.5例/千人;2022年显著上升至11,689,030例,发病率265.4例/千人;2023年虽有所回落,但仍保持在10,099,009例,发病率222.5例/千人的较高水平。
发病呈现明显季节性特征,在2020、2022和2023年,病例数和发病率在6-7月达到峰值,2020年7月峰值发病率为27.1例/千人,2022年6月为31.8例/千人,2023年6月为25.7例/千人。2021年则在7月(18.7例/千人)和12月(20.8例/千人)出现两个高峰。
区域分析显示,西尼罗河地区(West Nile)和阿乔利地区(Acholi)以及东部的布索加地区(Busoga)承担了最高的疟疾负担和发病率。2020年,西尼罗河地区病例数最多(1,689,832例,占全国17.6%),而阿乔利地区发病率最高(735.4例/千人)。坎帕拉市地区发病率最低(21.9例/千人)。
2021年,西尼罗河地区仍保持最高病例数(1,559,211例,占18.1%)和最高发病率(473.3例/千人)。2022-2023年,西尼罗河地区继续保持最高病例数,而阿乔利地区发病率最高(2022年699.4例/千人,2023年569.7例/千人)。基盖齐地区(Kigezi)发病率最低(2022年80.7例/千人,2023年59.6例/千人)。
西尼罗河、布索加、阿乔利和兰戈(Lango)这四个高负担地区在2020年贡献了全国51.3%的病例。这些地区的环境气候因素可能解释了发病率的差异:北部地区(西尼罗河、阿乔利和兰戈)以极端干旱和3-10月降雨为特征;布索加东部地区毗邻基奥加湖和维多利亚湖。这些地区城市化程度较低,大部分人口居住在农村地区。
在国家层面,ARIMA(1,0,0)(0,0,0)[12]模型表现优于FB-Prophet模型,其MAE、MAPE和RMSE分别为0.002、11.9和0.003,而FB-Prophet模型为0.004、23.9和0.005。两种模型的MAPE均低于50,表明都具有良好的预测准确性。
在区域层面,ARIMA模型在15个区域中的14个(93%)表现优于FB-Prophet模型。在高负担的阿乔利地区(ARIMA(0,1,1)(1,1,0)[12])和西尼罗河地区(ARIMA(0,0,0)(1,1,0)[12]),ARIMA模型的MAE分别为0.009和0.008,MAPE为14.6和20.4,RMSE为0.012和0.010;而FB-Prophet模型的MAE为0.01和0.01,MAPE为29.0和28.6,RMSE为0.018和0.013。
在低负担的基盖齐地区(ARIMA(1,0,0)(1,0,0)[12])和中南地区(ARIMA(0,1,0)(0,0,0)[12]),ARIMA模型的MAE为0.0007和0.002,MAPE为16.5和33.0,RMSE为0.0009和0.002;FB-Prophet模型稍差,MAE为0.001和0.003,MAPE为33.9和50.5,RMSE为0.002和0.004。
两种模型在布凯迪地区(ARIMA(0,1,1)(0,0,0)[12])表现最差,ARIMA的MAE、MAPE和RMSE分别为0.04、59.8和0.1,FB-Prophet为0.05、135.0和0.09。区域ARIMA模型的平均MAE、MAPE和RMSE分别为0.007、31.2和0.01,而FB-Prophet模型为0.01、47.8和0.01。
这项研究揭示了疟疾在乌干达仍然是一种高度流行疾病,存在显著的地区和季节性差异,这应直接指导国家资源分配决策。研究证明利用当前数据收集系统结合简单的ARIMA和FB-Prophet广义加法模型,可以在国家和区域层面实现疟疾病例的准确预测和预报。
尽管ARIMA模型整体表现更优,但两种模型的95%置信区间在所有分析中都有交叉,表明两者都具有实用价值。这些预测模型有望指导乌干达从国家到区域层面有限资源的针对性使用,帮助公共卫生系统从被动应对转向主动防控。
然而,研究也存在一些局限性:数据质量直接影响模型性能;COVID-19大流行可能影响了2020-2023年研究期间的医疗寻求行为和数据报告;天气、媒介行为和人口迁移等重要变量未被纳入模型。未来研究可通过加入协变量进一步提高预测准确性,但需要在模型复杂性和基础设施要求之间取得平衡。
该研究的发现适用于乌干达全国范围,可使公共卫生利益相关者能够以前瞻性的方式规划预期的疟疾暴发,为其他疟疾流行地区的预测建模提供了重要参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号