ARIMA、LSTM以及ARIMA-LSTM模型在辽宁省食源性疾病预测中的应用与比较
《Frontiers in Big Data》:Application and comparison of ARIMA, LSTM, and ARIMA-LSTM models for predicting foodborne diseases in Liaoning Province
【字体:
大
中
小
】
时间:2025年11月13日
来源:Frontiers in Big Data 2.3
编辑推荐:
食物中毒发病率预测中,ARIMA-LSTM模型较ARIMA、LSTM及基准模型表现更优,RMSE、MAE、MAPE分别降低99.5%、99.7%、99.4%,2025年预测病例数范围为214.62-2651.36例。
食品源性疾病是全球公共卫生领域面临的重要挑战之一,对人类健康和生活质量产生深远影响。随着社会经济的发展和气候变化的加剧,这类疾病的传播呈现出复杂的时空特征,给防控工作带来了极大的难度。因此,利用先进的预测模型来掌握疾病的发展趋势,对于制定科学的防控策略具有重要意义。本研究以辽宁省2015年至2023年的月度食品源性疾病病例数据为基础,构建了ARIMA模型、LSTM模型以及ARIMA-LSTM混合模型,对2024年和2025年的病例数进行了预测,并通过比较模型的预测效果,识别出最优模型。研究结果显示,ARIMA-LSTM混合模型在预测精度方面显著优于其他模型,能够有效捕捉疾病的变化趋势,为未来的防控措施提供了科学依据。
食品源性疾病具有明显的季节性特征,通常在夏季达到高峰,这一趋势在本研究中得到了验证。因此,季节性因素在疾病预测中扮演了关键角色。传统的ARIMA模型在处理线性趋势和季节性方面表现良好,但其在面对非线性变化时存在一定的局限性。而LSTM模型作为一类具有记忆能力的循环神经网络,能够有效处理非线性时间序列数据,从而在一定程度上提高预测的准确性。然而,LSTM模型对数据量的需求较高,且在处理线性特征时可能不够高效。为弥补这两种模型的不足,研究者提出了ARIMA-LSTM混合模型,结合了ARIMA的线性建模能力和LSTM的非线性拟合能力,使得模型在处理复杂时间序列数据时更加全面和灵活。
在模型构建过程中,首先对原始数据进行了平稳性检验,发现数据具有季节性波动,因此采用了季节差分的方法以消除非平稳性。接着,通过自相关函数(ACF)和偏自相关函数(PACF)图,初步确定了模型的参数结构,并结合AIC和BIC准则进行了优化。最终,选择了一个具有较强季节性和线性特征的ARIMA(2,0,0)(0,1,1)12模型作为基础模型。为了评估模型的预测能力,研究还引入了基准模型,即季节性朴素模型,其预测方法简单,即将当前月份的病例数设为前一年同期的值。通过对2024年数据的预测和实际值的对比,发现ARIMA-LSTM混合模型在多个误差指标上均优于基准模型和其他单一模型,表现出更强的预测性能。
在具体实施过程中,研究首先对数据进行了标准化处理,以确保模型训练的数值稳定性。对于LSTM模型,选择了时间步长为12,以适应数据的季节性周期。模型结构由两个层组成:一个LSTM层和一个密集层,分别具有50个隐藏单元。这种设计不仅提升了模型的非线性拟合能力,还兼顾了计算效率和模型的可解释性。通过Adam优化器和均方误差(MSE)作为损失函数,模型在训练过程中表现出良好的收敛性和稳定性。训练完成后,对预测结果进行了反标准化处理,以便与实际数据进行直接比较。
在ARIMA-LSTM混合模型的构建中,首先利用ARIMA模型对原始数据进行预测,随后计算出残差,并将这些残差作为LSTM模型的输入。这种方法有效地结合了两种模型的优势,使得ARIMA模型能够捕捉数据中的线性趋势,而LSTM模型则专注于残差中的非线性特征。通过这种方式,混合模型在预测精度和稳定性方面均表现出色。最终的预测结果与实际数据高度吻合,验证了该模型在捕捉复杂时间序列特征方面的有效性。
在2024年的预测中,ARIMA-LSTM混合模型的预测误差显著低于ARIMA和LSTM模型,同时也远低于基准模型。具体而言,ARIMA-LSTM模型的RMSE、MAE和MAPE分别为0.44、0.44和0.08%,而基准模型的相应指标为204.17、146.75和15.62%。这意味着ARIMA-LSTM模型在预测精度上实现了近99.5%、99.7%和99.4%的提升,展现出极强的预测能力。此外,模型在预测过程中不仅考虑了时间序列本身的特征,还通过残差分析进一步优化了预测效果,从而提高了整体的准确性。
根据ARIMA-LSTM模型的预测结果,2025年各月份的食品源性疾病病例数预计为:1月214.62例、2月260.84例、3月462.92例、4月590.92例、5月800.88例、6月965.11例、7月2410.36例、8月2651.36例、9月1711.15例、10月941.22例、11月628.21例和12月465.05例。这些预测结果不仅反映了疾病在不同月份的波动趋势,还为相关部门提供了科学的决策支持。例如,夏季(7月至9月)的病例数显著上升,这提示需要加强对餐饮业的食品安全管理,采取严格的预防措施,如及时冷藏剩余食物、彻底加热后再食用、生熟食品分开存放以及避免饮用未经处理的水源等。同时,公共卫生机构可以在夏季来临前发布预警信息,开展健康教育活动,提高公众的食品安全意识。
对于易感人群,如老年人和儿童,应加强食品安全培训和饮食指导,确保他们能够采取有效的防护措施。这些措施不仅有助于降低疾病的发生率,还能提高整体社会的健康水平。尽管本研究未考虑外部变量,如气象条件、人口流动和食品监测数据,但这些因素在实际预测中可能对模型的准确性产生重要影响。因此,未来的研究可以进一步引入这些变量,以提升模型的解释力和泛化能力。通过与相关机构的合作,获取更多外部数据,从而构建更加全面和精确的预测模型,为公共卫生决策提供更有力的支持。
本研究的结论表明,ARIMA-LSTM混合模型在预测辽宁省食品源性疾病病例数方面表现最佳,不仅能够准确捕捉疾病的时间趋势,还能够在复杂环境中保持较高的预测稳定性。这一成果为公共卫生领域的疾病预测提供了新的思路和方法,同时也为其他类似疾病的建模和预测工作提供了参考。然而,研究也指出,当前模型仍存在一定的局限性,特别是在处理外部影响因素方面。因此,未来的研究应关注如何将这些变量纳入模型,以进一步提高预测的准确性和实用性。此外,模型的优化和调整也是重要的研究方向,通过不断改进模型结构和参数设置,使其能够更好地适应不同地区和时间段的数据特征,从而实现更广泛的应用价值。
食品源性疾病的预测不仅是一项技术性工作,更是公共卫生管理的重要组成部分。随着人工智能和大数据技术的发展,越来越多的学者开始探索其在疾病预测中的应用。ARIMA-LSTM混合模型的出现,标志着这一领域的研究进入了一个新的阶段。通过结合传统统计模型和深度学习方法,该模型能够在保持模型可解释性的同时,实现对复杂时间序列的高效建模和预测。这种混合方法的优越性在于,它能够充分利用两种模型的优势,既保留了ARIMA模型对线性趋势的建模能力,又提升了LSTM模型对非线性变化的适应性。
在实际应用中,食品源性疾病的预测结果可以为政府和公共卫生机构提供重要的决策依据。例如,通过提前预测高发季节的病例数,相关部门可以提前部署资源,加强食品安全监管和疾病防控措施。此外,预测结果还可以用于评估防控措施的效果,为政策调整提供数据支持。然而,模型的预测能力仍受到多种因素的限制,如数据的完整性和准确性、外部变量的引入以及模型的可解释性等。因此,未来的研究需要在这些方面进行深入探索,以构建更加全面和精准的预测体系。
总的来说,本研究通过构建和比较三种预测模型,为食品源性疾病的预测提供了科学依据。ARIMA-LSTM混合模型在多个指标上表现出色,成为最优选择。这一成果不仅有助于提高对疾病趋势的把握,也为公共卫生管理提供了新的工具和方法。未来的研究可以进一步拓展模型的应用范围,结合更多外部变量,提升预测的准确性,从而更好地服务于疾病防控工作。食品源性疾病的预测是一项复杂而重要的任务,需要跨学科的合作和持续的技术创新,以应对不断变化的公共卫生挑战。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号