基于XGBoost的蒙特雷大都会区臭氧浓度预测与时空外推能力评估

《Big Data and Cognitive Computing》：Adversarial Perturbations for Defeating Cryptographic Algorithm Identification

【字体：大中小】 时间：2026年01月04日 来源：Big Data and Cognitive Computing 4.4

编辑推荐：

　　本研究提出了一种基于极端梯度提升（XGBoost）算法的评估框架，用于预测墨西哥蒙特雷大都会区（MMA）的对流层臭氧（O3）浓度。该模型通过特征工程（包括循环变量、滚动窗口和滞后特征）捕捉时间动态，并利用时间序列交叉验证进行优化。结果表明，模型在季节性外推（预测夏季O3浓度）和空间泛化方面表现出色，决定系数（R2）高达0.96，均方根误差（RMSE）低至0.0034 ppm。研究强调了环境拓扑结构（如工业走廊的复杂排放）对模型可转移性的关键影响，为空气质量管理和公共卫生风险预警提供了可靠工具。

基于XGBoost的臭氧浓度预测框架：季节性外推与空间泛化能力分析

1.
引言

在大型大都市区和特大城市，对流层臭氧（O₃）的高浓度记录屡见不鲜。O₃是通过其前体物（主要是氮氧化物NOx、一氧化碳CO、挥发性有机化合物VOCs和甲烷CH₄）之间复杂的光化学反应形成的。在阳光和环境温度（>20°C）条件下，VOCs和NOx发生反应并挥发，通过光化学过程产生O₃。此外，高温、低相对湿度和低风速等气象因素以及特定的地理条件也会促进O₃的形成。

准确预测历史和未来的O₃浓度对于有效的空气质量管理至关重要，有助于规划应急响应行动和实施减缓措施，以降低与高空气污染水平相关的健康风险。在墨西哥，尤其是在其主要大都市区，关于O₃预测模型的研究仍然有限。填补这一空白需要能够准确捕捉O₃前体物与气象因素之间复杂非线性关系的方法，这凸显了先进机器学习（ML）技术的潜力。

极端梯度提升（XGBoost）是一种基于决策树的ML技术，它使用提升集成方法，已成为处理非线性数据的复杂回归和分类问题的领先解决方案。XGBoost迭代地组合多个简单的决策树模型以创建强预测器，每个新模型都经过训练以纠正前一个模型的错误。该算法使用梯度下降优化损失函数，从而在每一步最小化残差误差。主要优势包括结合L1正则化项（使用α参数应用Lasso回归）和L2正则化项（使用λ参数应用Ridge回归）以防止过拟合。此外，它还具有自动处理缺失值和并行处理的功能，这对于处理大数据至关重要。

最近的研究显示了XGBoost在预测空气污染物水平方面的有效性。一些研究报告了使用XGBoost在不同区域获得的R²值介于0.59到0.86之间，而其他研究通过结合地面测量数据、再分析数据和气象数据，实现了季节性O₃预测的交叉验证R²（CV-R²）高达0.78。

为此，本研究开发并验证了一个用于预测蒙特雷大都会区（MMA）小时O₃浓度的预测框架。采用通过严格时间序列交叉验证优化的XGBoost架构和广泛的特征工程（包括循环、滚动和滞后变量），这项工作的贡献超越了简单应用现有算法。具体而言，本研究旨在：（1）评估模型使用仅在最冷站点数据训练的模型预测夏季高O₃水平的季节性外推能力；（2）通过明确分析当地工业拓扑结构如何影响模型的可转移性来评估空间泛化能力；（3）比较时间顺序分层抽样与时间序列交叉验证，以评估理论学习能力与预测的操作稳定性。

2.
材料与方法

2.1. 研究区域

MMA包括16个城市，总面积7658平方公里。该地区属于半干旱气候，有三种主要亚型：夏季降雨的干燥半温暖型、降雨有限的半温暖型以及温带半湿润型。年平均温度在16至24°C之间，降水水平在400至1000毫米之间。季节变化显著，夏季温度通常超过40°C，冬季温度低于0°C。降雨主要发生在8月至12月之间，而一年中的其他时间通常以小雨或干燥条件为特征。

地形上，该地区被山地景观环绕。盛行风从东向西流动，与地形相互作用产生捕获效应，促进污染物在地面的积累。人口方面，MMA有5,784,442居民。经济上，它是一个工业中心，拥有汽车制造、电子电路集成、石油炼化和钢铁生产，以及不断增长的建筑、商业和服务业。移动排放源很大，注册车辆包括1,539,035辆私家车、149,727辆摩托车、346,434辆货运卡车和14,891辆公共交通单位。

2.2. 数据集

本研究使用的数据集来自国家空气质量信息系统的公开记录。这些数据由墨西哥新莱昂州环境部通过其综合环境监测系统收集。本研究从网络可用的16个站点中选择了六个空气质量监测站（AQMS）。选择这些站点是因为它们靠近高度工业化区和混合住宅区的战略位置，这些区域空气污染物浓度最高。AQMS具有邻里尺度的空间代表性（约4平方公里半径），覆盖住宅、商业和工业用地。

监测网络每年365天、每天24小时运行，报告小时平均值。O₃浓度使用紫外光度法测量，氮氧化物（NO、NO₂和NOx）使用化学发光法测量，精度分别为±1 ppb（±0.001 ppm）和±4 ppb（±0.004 ppm）。两种仪器参考均通过美国EPA认证。

数据集包括O₃、NOx、NO、NO₂、温度（T）、相对湿度（RH）、气压（BP）、风速（WS）和风向（WD）等变量，每个站点有8760个小时数据点，覆盖时间为2022年9月22日至2023年9月21日。原始数据由政府机构使用NOM-156-SEMARNAT-2012方法进行验证，以确保符合官方质量标准。

2.3. 方法论

2.3.1. 预处理阶段

预处理阶段从数据清洗开始，这是质量控制（QC）中的第二步。此步骤涉及审查数据集的属性以查找不一致、伪影或不正确的测量值。发现的任何问题都会从属性中移除并替换为空值。

随后，为确保数据质量并尊重时间序列的性质，实施了一种基于间隙大小的混合数据插补策略。在插补之前的数据完整性分析显示，原始数据集质量高，所有站点的平均缺失记录率约为2.6%。对于目标变量（O₃），所有站点的缺失记录百分比均低于5%，范围从3.61%到4.98%。对于短间隙（少于连续12小时），使用线性插值。这种方法适用于连续的物理现象，如O₃浓度，在短时期内突然变化不频繁，能有效保持短期时间连续性。对于较大间隙（≥12小时），线性插值无法捕捉昼夜循环，因此使用K近邻（KNN）（k=5）进行插补。KNN通过使用历史记录之间的多元相似性（如气象条件）来填补间隙，确保插补值与预期的环境动态保持一致。

在特征工程阶段，应用了一系列转换来扩展原始数据集。一个重要步骤是提取和编码循环变量，特别是时间属性（小时、星期几、月中日和月份）和风向。标准的序数编码对这些变量不足，因为它无法捕捉其周期性（例如，从23:00到00:00的过渡，或360°到0°的过渡）。为解决此问题，我们将这些特征映射到单位圆上，并计算它们的正弦和余弦分量。这种转换确保预测模型正确解释周期结束和开始之间的接近度，提供时间以及风向的显式和连续表示。

下一步是生成滞后和滚动窗口特征。与ARIMA或循环神经网络（LSTM/GRU）等模型不同，XGBoost算法将每个数据行视为独立同分布的观测值。也就是说，如果接收到无序数据，模型将继续工作，因为它无法识别第t行紧接在第t-1行之后发生。因此，解决方案涉及创建捕捉不同时间动态的滞后和滚动窗口特征，将时间数据转换为静态列，使XGBoost能够为每一行保持显式记忆，从而在没有内部递归的情况下识别过去的信息。滚动窗口是使用O₃属性（目标变量）过去6、12和24小时的平均值、标准差（sd）、最小值（min）和最大值（max）构建的。这允许将整个时间序列处理为小片段（窗口），考虑过去的观测值和未来值以捕捉趋势和周期。平均值可平滑噪声并指示一天的整体趋势是上升还是下降，而不考虑瞬时峰值。最小值和最大值捕捉波动性；例如，如果过去24小时的最大值非常高，模型可以检测到大气条件容易积聚污染。标准差指示不稳定性；其突然变化可以提醒模型状态转变，例如风暴开始或阵风吹散O₃。

接下来，为O₃变量构建一组滞后特征，使用前7小时，使模型能够捕捉过去的观测值如何包含关于目标变量未来值的重要信息。由于O₃的光化学动力学和统计自相关性，在此时间段内包含了一个滞后窗口。如前所述，O₃是在阳光与来自特定工业和车辆交通的前体物（NOx和VOCs）反应时形成的。对于MMA，早高峰交通通常发生在上午6:00至9:00之间，而最高O₃水平通常在下午1:00至4:00之间达到，此时太阳辐射达到峰值。前体物排放与O₃峰值之间的时间滞后约为5-7小时。因此，当XGBoost模型分析7小时前的浓度时，它可以将原因（早高峰交通排放期间的O₃水平）与效果（当前O₃水平）联系起来。通过包含七个连续的浓度读数（从t-1到t-7），XGBoost模型可以隐式推断曲线的形状，使其能够区分上午10:00（快速上升）和下午6:00（快速下降），即使O₃值相同。总之，XGBoost使用这些滞后进行初步预测。

在特征工程期间应用了严格措施以防止数据泄露（前瞻性偏差）。所有滞后特征和滚动窗口统计量（平均值、最大值、最小值、标准差）都被仔细设计为严格向后看的变量。这意味着对于任何特定时间步长t，特征仅基于时间t-1, t-2, …, t-n的观测值。因此，未来的信息不会影响当前状态。此外，由于按时间顺序划分训练测试集，计算这些特征保持了时间序列的因果顺序，确保训练过程仅依赖于预测时可用的过去信息。

特征工程过程将初始数据集扩展到38个输入变量。这最终数据集包含原始污染物和气象变量、时间属性和风向的循环转换（正弦和余弦分量）、周末的二元指标、12个滚动窗口统计量（平均值、最大值、最小值、标准差）和7个滞后变量。

预处理的最后一步是特征缩放。为避免数据泄露，缩放参数（平均值和标准差）仅使用训练数据集计算。然后将这些参数应用于测试数据集，确保测试数据在缩放过程中完全不可见。在本实验中，将StandardScaler技术（标准化）应用于所有输入特征，包括循环变量（正弦/余弦）。尽管循环特征自然限制在[-1, 1]内，但将它们与数据集的其余部分一起标准化确保了统一的特征空间（零均值，单位方差），便于一致解释和算法收敛。该方法通过对齐气象和空气污染变量的分布来有效地转换数据。

2.3.2. 数据集阶段

数据集阶段管理记录的分区，以支持两种不同的实验策略。

•
实验1. 第一种方法评估模型对未见状态的推断能力。数据集被划分为季节性片段：秋季、冬季和春季的记录用于训练集（约75%的数据），而夏季记录专门保留给测试集。
•
实验2. 为评估所有气候条件下的鲁棒性，第二种方法应用时间顺序分层抽样策略。对于每个季节，前80%的连续记录分配给训练，其余20%留出用于测试。这种方法在捕获所有季节动态的同时保持了时间连续性。

2.3.3. 训练阶段

训练阶段侧重于确定最佳模型设置。在本研究中，我们实施了具有400次迭代的随机搜索方法以探索超参数空间。选择该方法是因为它能够以比穷举网格搜索少得多的计算成本找到接近最优的配置。在优化期间，使用五折时间序列交叉验证评估每个候选配置。与传统的k折验证不同，这种方法保留了观测值的时间顺序，确保基于预测未来数据的能力而不是插值随机点来选择超参数。算法选择在折数上实现最高平均R²的配置。

XGBoost超参数在以下搜索空间内进行调整：n_estimators {200, 400, 600, 800, 1000}；max_depth {3, 5, 7, 9}；learning_rate {0.01, 0.05, 0.1}。关于随机性和正则化，网格包括：subsample和colsample_bytree {0.6, 0.8, 1.0}；min_child_weight {1, 3, 5}；gamma {0, 0.1, 0.3}；reg_alpha {0, 0.1, 1.0}；reg_lambda {1, 5, 10}。最后，使用优化器确定的最佳超参数在整个训练数据集上重新训练模型。

2.3.4. 测试阶段

在测试期间，优化的XGBoost模型被部署来预测未见测试数据集上的O₃浓度。此阶段包括两个评估范围：

•
自预测：使用来自源监测站的测试数据评估预测模型的性能。
•
空间泛化：将预测模型应用于其他五个监测站的测试数据集以评估可转移性。

使用四个标准指标评估模型的准确性和性能：R²、均方误差（MSE）、均方根误差（RMSE）和平均绝对误差（MAE）。选择这些特定指标是为了与最近最先进的O₃预测研究的报告框架保持一致，从而实现直接和一致的基准测试。

实验使用Python 3.10以及Scikit-learn、XGBoost、pandas、numpy、json、joblib、matplotlib、seaborn和optuna库实现。随机种子设置为42以确保可重复性。优化过程（每个站点400次迭代）和模型训练在配备Intel Core i9-14900K CPU、2TB M.2 PCIe SSD、128 GB DDR5 RAM和NVIDIA GeForce RTX 4900 24 GB GPU的工作站上执行。每个站点的整个流水线（使用随机搜索）的平均运行时间在实验1中约为56.09分钟，在实验2中约为46.56分钟。

3.
结果

3.1. 实验1

实验1评估模型的季节性外推能力。训练数据包括从2022年9月22日至2023年6月21日的记录，涵盖秋季、冬季和春季。为全面评估模型的适应性，测试阶段仅使用夏季（2023年6月22日至9月21日）的数据，该季节通常表现出最高的O₃变异性。结果显示了尽管季节变化，模型仍具有强大的鲁棒性，六个模型中有五个达到R²值高于0.90。AQMS-NL06站表现最佳，达到R²为0.96，RMSE为0.0034 ppm。这表明预测浓度与回归线非常接近，即使在未见过的夏季数据上也表现出优异的拟合度。值得注意的是，即使是指标最低的站AQMS-NL03，也保持了强大的预测能力，R²为0.83。关于误差幅度，MAE提供了模型典型准确性的关键洞察，因为它受零星异常值的影响小于RMSE。所有站点的MAE值都非常低，范围从0.0023 ppm（AQMS-NL06）到0.0044 ppm（AQMS-NL03），确认对于大多数浓度水平，预测误差几乎为零。

在实验1的第二阶段，评估预测模型的空间泛化能力。在此阶段，在特定监测站训练的模型在其他五个站点的数据集上进行测试，以评估它们在不同城市区域的可转移性。AQMS-NL02和AQMS-NL05模型表现出最强的泛化能力。然而，在预测站点AQMS-NL03时（R²=0.81），性能明显下降，其他模型也出现此趋势。这种较低的性能主要源于该站点的特定类型：邻里级的混合工业和住宅区。与其他站点不同，AQMS-NL03由于其靠近当地工业排放和住宅交通而经历高频变异性。此外，该地区受到从东南、东和东北方向风吹来的污染羽流的影响。而且，夏季测试期间的当地条件因频繁火灾和极低的相对湿度而恶化，导致O₃水平不规则尖峰，这使得在其他地方训练的模型难以预测。这些因素创造了高度复杂和易变的O₃分布，使得在不同城市环境中训练的模型难以有效泛化。

时间序列比较显示，模型存在“峰值阻尼”效应，即低估极端浓度（>0.06 ppm），而在较低浓度范围（0.005至0.02 ppm）内往往高估数值。模型在中间范围（0.02至0.06 ppm）表现最佳，预测趋势线与观测到的时间动态紧密匹配。

为检验环境复杂性阻碍了在站点AQMS-NL03泛化的假设，我们测量了该站点与性能较高的站点（AQMS-NL06）之间的域偏移。概率密度函数比较显示，AQMS-NL06（蓝色曲线）呈现尖锐的峰值分布，是稳定的城市背景站点的典型特征，而AQMS-NL03（红色曲线）显示平坦、宽阔的分布，表明更大的方差和更多样化浓度状态的更高频率。两样本Kolmogorov-Smirnov（KS）检验得到的KS统计量为0.120（p < 0.001），表明基础数据分布存在统计学显著差异，突出了空间泛化的挑战。这种显著的域变化解释了将训练于NL06的模型转移到NL03时预测性能下降的原因。

此外，在类似实验条件下实施了参考算法Ridge回归、Lasso回归和随机森林，以比较它们与XGBoost方法的性能。线性模型（Ridge和Lasso）在捕捉O₃的复杂行为方面能力有限，R²值在0.70到0.80之间。随机森林模型被证明是最具竞争力的基线，错误率更接近XGBoost。例如，在站点AQMS-NL06，随机森林达到R²为0.88，RMSE为0.0054 ppm。相比之下，提出的XGBoost模型（R²=0.96，RMSE=0.0034 ppm）优于此基线，准确度提高了约37%。值得注意的是，在站点AQMS-NL03，性能差异显著：随机森林模型达到R²为0.67，而XGBoost保持在0.83。关于误差指标，随机森林实现RMSE为0.0102 ppm，而XGBoost产生RMSE为0.0065 ppm。RMSE的这些差异表明，除了相关性之外，所提出的模型在实际浓度单位上产生的预测不确定性显著降低。

模型可解释性与物理驱动因素

为解释模型的黑箱性质并确保其预测基于大气物理学而非统计伪影，使用SHAP方法进行了分析。对具有复杂工业动态的站点AQMS-NL03的分析显示，O₃的6小时滚动平均值（O₃mean_6h）是模型中最有影响力的因素。这确认了短期历史趋势是即时未来最强的预测因子。它反映了大气持续性（惯性）的物理特性，即累积浓度是逐渐变化而非突然变化的。在O₃mean_6h变量之后，自回归项（O₃Lag_2h, O₃Lag_4h, O₃_Lag_3h）充当微调校正器。

SHAP摘要图提供了关于模型如何响应环境变量的关键洞察。对于NOx存在明显的反比关系。高NOx值（由红点表示）对应于负SHAP值，这会降低预测的O₃浓度。这与称为臭氧滴定（NO + O₃→ NO₂+ O₂）的化学过程一致，这在像AQMS-NL03这样的工业和交通繁忙区域很常见，新的排放往往降低局部臭氧水平。此外，相对湿度（HR）显示负相关；高湿度（红色）降低O₃预测。这与高湿度常伴随云覆盖或降水，从而减少光化学生产所需太阳辐射的气象观测结果一致。而且，hour_cos特征清楚地区分了白天和黑夜时段，从而调整基线预测以考虑昼夜周期。总之，SHAP分析表明XGBoost模型不仅有效学习了时间序列的统计自相关，还学习了影响O₃动态的潜在化学和气象强迫机制。

为将工业站点观察到的物理化学挑战置于背景中，我们在相同实验条件（实验1）下对AQMS-NL06进行了相同的SHAP分析。比较突出了不同的预测驱动因素：

•
AQMS-NL06模型将历史臭氧统计量确定为主要特征。6小时滚动平均值（O₃mean_6h）和最大值（O₃max_6h）是最重要的，紧随其后的是自回归滞后。这表明了一个高度稳定的大气状态，其中短期持续性是整个季节可靠的预测因子。
•
与工业站点（AQMS-NL03）形成鲜明对比的是，在AQMS-NL06，化学变量（NOx, NO₂）排名在前12名之后。这证实了Santa Catarina（AQMS-NL06）表现为稳定的城市背景站点，其中臭氧积累由区域传输和大气稳定性驱动，而不是即时的局部排放尖峰（滴定）。

这种对比证实了实验1中观察到的泛化差距是由于环境复杂性造成的。模型有效地外推了AQMS-NL06夏季的一致惯性模式，但如果没有专门的夏季训练数据，则难以预测AQMS-NL03的易变、排放驱动的化学过程。

3.2. 实验2

对于第二个实验，使用基于季节的时间顺序分层抽样策略划分数据集。这种划分确保不同季节的臭氧行为在训练和测试阶段都被准确捕获，而不影响时间准确性。六个模型表现出强大的性能，整体平均决定系数（R²）为0.913，相比实验1的结果有显著改善，确认了时间顺序分层80/20分割策略的有效性。

结果显示所有站点性能优异，R²值一致介于0.88和0.95之间。具体而言，站点AQMS-NL06表现出最强的相关性，R²为0.95。同时，站点AQMS-NL05记录了最低的预测误差，RMSE为0.0037 ppm，MAE为0.0024 ppm，提供了与观测数据相比最准确的估计。此外，在季节性外推实验中先前表现较差的站点AQMS-NL03观察到显著改善，达到R²为0.90，RMSE为0.0048 ppm。这表明在完整的季节性变异性范围上训练模型使其能够更好地捕捉先前难以建模的复杂局部动态。总体而言，所有站点RMSE和MAE之间的微小差距表明模型稳定可靠，即使在峰值浓度期间也最小化了实质性错误。因此，在训练集中包含每个季节（秋季、冬季、春季和夏季）的代表性样本使XGBoost模型在本研究中达到其最高的预测准确性。

为评估所提出方法的泛化能力，最佳性能模型（AQMS-NL06）在全部六个监测站的测试数据集上的散点图矩阵显示，模型保持了强大的预测能力。然而，当AQMS-NL06模型应用于站点AQMS-NL03和AQMS-NL04时，表现出较低的性能指标。虽然保持正线性趋势，但这些图显示更大的离散性和对高O₃浓度的系统性低估。

全面的10折时间序列交叉验证的结果证明了模型在严格时间约束下的实际鲁棒性。在此设置中，模型在没有接触即时趋势的情况下在未来的时间窗口上重复测试，从而模拟连续预测操作。因此，指标略保守但高度一致。XGBoost模型在六个站点上实现了平均R²值从0.79到0.86。站点AQMS-NL01表现出最高的稳定性，R²为0.86，RMSE为0.0063 ppm。即使对于最复杂的站点AQMS-NL03，模型也保持了R²为0.71。重要的是，RMSE值（例如0.0063 ppm）一致高于MAE值（例如0.0041 ppm）。正如所讨论的，这种差异在环境数据的交叉验证中是预期的，其中模型有效捕捉一般趋势（低MAE）但难以预测零星极端峰值的精确幅度（较高RMSE）。总之，这些结果确认所提出的模型不仅能够学习复杂模式，而且对时间偏移具有数学鲁棒性。

为可视化模型随时间的稳定性，使用时间序列分割策略显示了站点AQMS-NL01的10个验证折的散点图。这种分解展示了模型适应变化气象条件的能力。虽然大多数折表现出强线性，R²值超过0.85（第4折达到峰值0.92），但该方法有效揭示了波动增加的时期。例如，第2折表现出性能暂时下降（R²=0.673，RMSE=0.0075 ppm），可能由于以不规则臭氧尖峰为特征的季节转换。尽管如此，模型表现出适应性，在后续折中快速恢复性能（例如，第3折：R²=0.829）。这种波动确认验证策略是彻底且“时间感知”的，提供了操作风险的透明视图，而不是掩盖的平均值。

基准算法在相同交叉验证方案下的性能总结显示，线性模型（Ridge和Lasso）表现不佳，在大多数站点R²值稳定在0.79以下，未能捕捉O₃在全年内的非线性变异性。XGBoost在所有关键指标上一致优于随机森林。例如，在站点AQMS-NL06，XGBoost实现R²为0.83，而随机森林为0.80。此外，在预测误差方面，XGBoost在所有六个站点上一致实现最低RMSE。在站点AQMS-NL04，XGBoost实现RMSE为0.0060 ppm，略微但显著优于随机森林的0.0061 ppm。这些结果确认，即使在使用考虑所有季节变化的严格交叉验证时，XGBoost为操作预测提供了最准确和可靠的预测。

3.3. 残差诊断与校准分析

为评估模型点估计的可靠性并验证校准，进行了残差诊断分析。实验1中站点AQMS-NL04的残差图说明了XGBoost模型的三个关键特征：

•
平均残差约为零（-0.0014 ppm），表明模型预测以观测值为

热点排行

新闻专题