
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于随机森林与ARIMA混合模型的可解释空气质量指数预测研究
【字体: 大 中 小 】 时间:2025年07月31日 来源:Methods 4.3
编辑推荐:
为解决空气质量指数(AQI)预测中非线性关系与时间序列特征难以兼顾的问题,研究人员开发了结合随机森林回归(RFR)和自回归积分滑动平均(ARIMA)的混合模型,通过SHAP解释框架揭示PM2.5、NO2等关键污染物的贡献,最终实现MSE=508.46、R2=0.94的预测精度,为环境决策提供透明可靠的技术支持。
空气污染已成为全球性环境挑战,细颗粒物(PM2.5)和二氧化氮(NO2)等污染物与呼吸系统疾病、心血管并发症密切相关。传统AQI预测方法面临两大困境:统计模型如ARIMA难以捕捉污染物间的非线性相互作用,而机器学习模型如随机森林(RFR)虽能处理复杂特征但缺乏时序建模能力。更关键的是,黑箱模型的可解释性不足阻碍其在公共卫生政策中的应用。
阿联酋迪拜阿米提大学工程学院(Amity University Dubai Campus)的研究团队在《Methods》发表创新研究,提出融合RFR与ARIMA的混合框架:RFR负责建模PM2.5等污染物与AQI的非线性关系,ARIMA则校正RFR残差中的时间依赖性。通过印度五年AQI数据验证,该模型不仅实现MSE=508.46的精度,更利用SHAP(SHapley Additive Explanations)技术量化了PM2.5(贡献度0.38)、PM10(0.28)等关键污染物的影响,为精准环境干预提供科学依据。
研究采用三项核心技术:1) 基于5天滚动均值的缺失值填补策略,保留数据时序特征;2) 扩展窗口交叉验证(Expanding Window Cross-Validation)确保时间序列预测的严谨性;3) 两阶段建模流程——先用RFR预测AQI,再用ARIMA(1,0,1)拟合残差。实验使用Kaggle平台印度城市级监测数据,包含PM2.5、SO2等6类污染物指标。
【方法细节】
残差学习混合架构:RFR首阶段预测达到R2=0.917,但残差分析显示存在未建模的时间自相关性。二阶ARIMA将残差MSE降低16.18,证明其有效捕获了RFR遗漏的时序模式。Ljung-Box检验(p>0.05)确认残差呈白噪声,验证模型完备性。
【模型验证】
与LSTM、XGBoost等基准模型相比,该混合模型在保持可解释性前提下,预测精度提升23%。SHAP分析揭示PM2.5对AQI预测的贡献超NO2的2.7倍,与流行病学研究结论一致。不确定性带(Uncertainty Bands)显示模型对突发污染事件(如节日排放)的响应灵敏度。
【讨论与结论】
该研究创新性地将机器学习预测力与传统时序分析方法结合,其核心价值在于:1) 通过残差校正机制弥补单一模型缺陷,比深度学习方法更易部署;2) SHAP框架使模型决策透明化,PM2.5等关键因子的量化影响可直接指导减排政策;3) 时间感知的验证策略确保预测可靠性。局限在于对突发污染事件的响应延迟,未来可整合气象等外生变量提升动态预测能力。这项研究为资源受限地区提供了兼顾精度与解释性的AQI预测范式。
生物通微信公众号
知名企业招聘