
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:人工智能与学习技术在PM2.5数据时间序列预测中的作用——全面回顾
【字体: 大 中 小 】 时间:2025年09月25日 来源:Franklin Open CS1.4
编辑推荐:
本综述系统探讨了人工智能(AI)与机器学习(ML)技术在PM2.5时间序列预测中的前沿应用,涵盖统计方法、机器学习(如SVM、ANN)与深度学习(如LSTM、CNN)模型,分析了其性能指标(MAE、RMSE、R2等),并针对现有研究的局限性提出优化方向,为环境健康决策提供关键技术支持。
空气污染因汽车、工业排放增加而成为全球性问题,尤其PM2.5(粒径≤2.5μm的颗粒物)与呼吸系统及心血管疾病密切相关。时间序列预测通过分析历史数据趋势预测未来空气质量,对公共卫生干预至关重要。传统方法依赖统计模型,而人工智能(AI)与机器学习(ML)技术显著提升了预测精度与效率。
PM污染是空气中碳颗粒的代理指标,其粒径小于10μm(PM10)或2.5μm(PM2.5)的颗粒可穿透人体防御机制(如鼻腔纤毛和肺泡),进入血液并引发健康风险。主要污染源包括化石燃料燃烧、热电厂及农业焚烧。PM2.5指数广泛用于全球特定区域的空气污染水平评估。
时间序列预测是机器学习中的回归问题,通过统计函数学习历史数据趋势并预测未来值。传统方法包括自回归移动平均(ARIMA)和指数平滑,而AI技术(如机器学习和深度学习)通过自动化统计与编程结合,提升了预测分析能力。应用领域涵盖气象预报、金融建模及疫情预测。
统计方法适用于单变量数据,通过线性数学函数拟合历史观测值,并基于时间变量系数进行预测。分为平稳性(无时间趋势)和季节性(受周期影响)时间序列。季节性数据常用移动平均和指数平滑处理,而平稳数据多用单变量或多变量线性回归。ARIMA及其变体(如季节性ARIMA)是核心方法,结合自回归和移动平均组件处理趋势与周期成分。
AI融合统计与编程,实现自动化数据分析和预测。其子领域机器学习(ML)和深度学习(DL)通过训练历史数据构建模型,支持多维度数据处理。统计编程缺乏学习能力,而AI系统能基于数据自主决策。
机器学习算法利用特征参数训练数据,最大化类间距离并最小化类内差异。常用算法包括朴素贝叶斯、随机森林、决策树、支持向量机(SVM)、人工神经网络(ANN)、极限学习机(ELM)和回声状态网络(ESN)。支持向量回归(SVR)、ELM和ESN等尤其适用于PM2.5时间序列预测,通过数学函数或模型融合提升回归任务性能。
深度学习通过融合特征提取与分类步骤,在计算复杂度较高的情况下仍优于传统机器学习。主流算法包括深度信念网络(DBN)、长短期记忆网络(LSTM)、门控循环单元(GRU)和一维卷积神经网络(1D-CNN)。DBN基于受限玻尔兹曼机构建可见层与隐藏层;LSTM通过输入门、遗忘门和输出门处理序列数据;1D-CNN适配时间序列结构,预训练模型(如DenseNet)经修改后可有效用于深度回归预测。
回归模型:Jeong等使用简单线性回归预测东亚冬季PM2.5,基于34年数据与交叉验证,9项冬季指数显示>90%置信水平。Sahanavin等通过路径分析和线性回归研究PM2.5与PM10关系,发现气象条件直接影响颗粒物浓度。
残差过滤器:Zhang等提出特征向量空间过滤回归(ESFR),降低空间自相关性,提升PM2.5浓度估计精度。Li等采用残差变分约束模型(RCVM),增强时空数据稳定性。
ARIMA模型:Zhang等结合Spearman相关性分析(PM2.5与SO2、NO2正相关),评估政策对污染趋势的影响。Wang等融合ARIMA与SVM,处理10小时窗口数据,验证波动性控制。Jin等集成ARIMA与GRU,分解趋势、周期和残差组件,通过Pearson系数和误差指标(RMSE、R2)评估性能。
支持向量回归:Yang等使用时空SVR处理空间异质性,高斯核函数优化自相关特征。Chu等结合变分模式分解与SVR,通过相关熵准则避免冗余。
支持向量机:Zhou等多输出SVM(M-SVM)提升多步预测精度;Leng等利用叶片磁性属性与SVM预测重金属含量,降低成本;He等改进高斯烟羽模型与径向基核SVM,用于扩散模拟。
人工神经网络:Wang等通过遗传算法优化ANN,提升实时监测精度;Elangasing等结合k均值聚类与ANN,建立浓度-气象关系拓扑。
其他算法:Ma等采用XGBoost与梯度提升决策树,集成线性混合效应与随机森林;Nguyen等通过遗传算法优化特征选择,提升预测性能。
深度信念网络:Xing等提出温度约束DBN,使用部分最小二乘法处理辅助变量,优化隐藏层与温度参数。
长短期记忆网络:Wang等结合GRU与LSTM的双层RNN,处理74个站点数据;Rico等使用全连接层与Adam优化器;Qiao等引入小波变换与堆叠编码器,缓解梯度消失问题;Xiao等加权LSTM模型整合空间-时间相关性。
卷积神经网络:Yeo等集成CNN与GRU,地理相关性提升性能10%;Zhang等开发时空因果CNN,避免信息泄漏;Yan等采用DenseNet自动提取特征,无需气象输入即可捕获季节特性。
基于72篇Scopus文献的统计显示:机器学习应用最多(40%),其次为深度学习(33%)和统计方法(20%),其余为综述论文(7%)。年度分布上,机器学习研究2021年达高峰(26%),深度学习同年占比40%。出版商以Elsevier为主(覆盖多学科领域)。
统计方法:ARIMA为主导技术(2018年应用最多)。
机器学习:SVM应用最广,涉及核函数优化与特征选择。
深度学习:LSTM使用频率最高,适用于序列建模与时空特征提取。
通过性能指标(MAE、RMSE、R2、MAPE、准确率)评估15项代表性研究:
统计方法:Jin等(ARIMA+GRU)的RMSE最低(0.1237),Mani等(ARIMA+MLP)准确率达82%。
机器学习:Leng等(SVM+磁性属性)的R2最优(0.049),Ibrir等(混合SVM)的RMSE为1.9261。
深度学习:Lin等(LSTM+多头部ANN)的R2领先(0.13),Sun等(深度RNN+LSTM)的SMAPRE为52.47。
深度学习方法整体表现更优,但仍需提升精度与泛化能力。
现有方法未完全满足实时预测需求,需从多维度优化:
区域化替代城市单独分析,整合气候相似区的数据;
融合时空特征增强输入数据代表性;
引入模糊规则筛选数据,结合深度学习决策;
设计轻量级分类器作为深度学习新层,提升效率;
开发新型激活函数,优化Softmax层分类性能。
通过上述策略,可进一步提高预测准确率、降低误差与时间成本。
AI与ML技术显著推动了PM2.5时间序列预测的发展,从统计模型到深度学习架构不断进化。未来需聚焦异构数据集成、传感器异常韧性方法开发,并探索实时部署、边缘计算及先进学习范式,以强化环境污染预警能力,支撑公共健康决策。
生物通微信公众号
知名企业招聘