利用基于观测数据的深度学习化学传输模型提升72小时空气质量预报的准确性
《Environment International》:Enhancing 72-Hour air quality forecasting with an observation-driven deep learning chemistry transport model
【字体:
大
中
小
】
时间:2025年07月21日
来源:Environment International 9.7
编辑推荐:
实时大气化学预报模型DeepFC通过融合卫星与地面观测数据,显著提升PM2.5和O3的72小时预测精度,RMSE降低50%,R2从0.2提升至0.6,并支持污染源解析与气象-排放协同效应分析。
空气污染已成为全球范围内导致死亡的主要原因之一,每年因暴露于有害污染物而死亡的人数以百万计,特别是细颗粒物(PM?.?)和臭氧(O?)(Cohen et al., 2015)。为了有效降低与空气污染相关的健康风险,实时空气质量预测在短期防护中发挥着至关重要的作用(Zhang et al., 2012)。虽然经验方法和统计模型(McCollister and Wilson, 1975)长期以来被用于空气质量预测,并且随着机器学习的发展而变得越来越流行(Liao et al., 2020),但物理模型如化学传输模型(CTMs)通常更受青睐,因为它们能够详细描述关键的物理和化学过程,并捕捉空气污染物的传输路径(Brasseur and Jacob, 2017)。然而,传统CTMs在预测准确性和效率方面面临挑战,主要原因是其计算强度大、依赖复杂的数值计算,以及对关键输入如实时排放清单的不确定性敏感(Carmichael et al., 2008)。尽管人们不断努力通过数据融合和反演以及模型更新来提高CTM的预测能力,但这些过程仍然较为繁琐(Henze et al., 2009)。鉴于空气质量预测的时间敏感性,高效地整合观测数据是至关重要的。然而,传统CTMs难以满足这一需求,限制了其提供准确和及时预测的能力。
基于近年来在大气研究中机器学习应用的进展,例如其在天气预报中的成功(Bi et al., 2023;Bodnar et al., 2024;Kochkov et al., 2024;Price et al., 2025),全时空覆盖的空气质量预测具有巨大的改进潜力。首先,基于机器学习的CTM模型已被证明可以作为传统CTMs的替代品或简化版本,用于预测空气污染物浓度,其效率远高于传统方法(Cabaneros et al., 2019;Kelp et al., 2020;Huang et al., 2021;Xing et al., 2022)。这种全空间覆盖的预测能力为区域空气质量预测提供了更大的潜力,克服了以往机器学习方法在空气质量预测中通常受限于可用地面观测点的空间局限性(Teng et al., 2023)。相比之下,空间全面的预测在诸如健康影响评估和气候研究等应用中尤为重要,因为这些领域需要考虑空间异质性和化学-气候相互作用,如化学对气象的反馈机制。
其次,基于机器学习的排放修正和反演方法已被证明在实时排放更新方面非常有效,这是传统CTM模拟中的一个关键挑战,因为排放清单存在不确定性(Li and Xing, 2024)。通过将卫星和地面观测数据与气象条件相结合,这些方法显著降低了传统反演方法的计算负担,并且更重要的是,意味着仅依靠卫星或地面观测数据即可准确反映排放情况。鉴于排放变化与气象因素之间存在强烈的相关性(Baek et al., 2023),利用多种观测数据作为直接输入,而不是依赖预定义的排放清单,结合时间依赖的气象条件,能够更准确地反映后续几天的排放变化,从而使得基于深度学习的CTM模型在实时预测全区域PM?.?和O?浓度方面更加高效和准确。
第三,多种数据集,尤其是来自先进卫星的数据,使得对当前和历史污染水平的理解更加深入。尽管卫星测量提供了总柱密度,代表了所有垂直层的浓度积累,但先进的融合方法,如近年来开发的具有物理约束的深度学习测量-模型融合方法(Xing et al., 2024),能够有效地将总柱测量分解为层特定的浓度。这些分解后的浓度数据可以进一步与地面观测数据融合,以重建初始条件,而不会受到传统方法中样本不平衡问题的限制(Li et al., 2024)。
此外,许多机器学习应用已被用于表示化学反应(Meuwly, 2021),在优化CTM中的化学形成过程和模型机制方面显示出显著优势。传统上,更新这些机制需要数年时间,且常常是未解的挑战,特别是在模拟二次污染时,涉及多种化学物种和复杂的非线性反应(Toro et al., 2021;Ervens et al., 2024)。一些成功应用利用了机器学习方法和观测数据来优化化学机制,从而在特定条件下表现出更好的性能(Anderson et al., 2022;Ye et al., 2022)。这些令人鼓舞的结果表明,类似的方法可以扩展到其他机制或整个模型,以进一步利用观测数据进行优化。
在所有这些进展的基础上,利用机器学习提升传统CTMs在空气质量预测中的能力具有巨大潜力。为了证明这一点,我们引入了一种基于观测数据驱动的深度学习模型——DeepFC,该模型有效地将历史卫星和地面观测数据整合到实时预测系统中。与之前讨论的单独任务或组件不同,我们采用了一个统一的机器学习模型,将这些观测数据集整合起来,以预测未来三天内每小时PM?.?和O?的全空间和全时间分辨率浓度,从而确保整体性能最优,而不牺牲任何一方面以提高另一部分。
与我们之前的设计相似,DeepFC采用了基于ConvLSTM模型的先进深度学习架构(Shi et al., 2015),该模型非常适合处理大气化学场中的空间-时间相关性。由于空气污染受到邻近地区和先前时间步的影响,ConvLSTM的记忆结构有助于减少长期积累导致的误差传播问题。然而,在本研究中,我们以历史观测数据替代了预定义的排放作为输入。不同于我们之前的工作,我们引入了双ConvLSTM结构,以从历史浓度数据中隐式学习排放动态。第一个ConvLSTM模块处理过去24小时的历史记录,包括地面每小时浓度、一次性的卫星柱密度数据和每小时气象因素,以模拟排放反演和数据融合。第二个ConvLSTM模块则通过模拟传统CTMs,根据气象变化和第一个ConvLSTM的输出(表示排放水平和初始条件)来预测未来72小时的浓度。虽然新的DeepFC模型不再直接依赖排放输入,从而与传统CTM框架脱钩,但我们通过从历史观测中推断潜在的排放特征来弥合这一差距。这使得模型能够保留之前DeepCTM方法的关键优势,即捕捉大气系统中复杂的非线性关系。通过在丰富的CTM模拟数据上进行训练,该模型在模拟臭氧形成动态和污染物传输的空间模式方面依然有效。
通过将观测数据与先进机器学习技术相结合,DeepFC有望超越传统CTMs。在本研究中,我们选择了由美国环保署开发并广泛使用的社区多尺度空气质量(CMAQ)模型(Appel et al., 2013)作为基准。与我们之前的研究类似,我们使用了2017年在中国27公里×27公里分辨率域上的CMAQ模拟数据进行DeepFC的预训练。然后,我们使用2013年至2021年的九年观测数据集对预训练的DeepFC进行微调,以解决样本不平衡问题,因为卫星测量仅限于特定时间,而地面观测主要集中在城市中心。CMAQ也作为比较基准,用于评估DeepFC的性能。
DeepFC模型结构的设计基于ConvLSTM,该模型能够有效捕捉大气变量的空间-时间变化,考虑了相邻网格的相互作用和时间序列的相关性。在本研究中,我们改进了这一模型,将其分为两个ConvLSTM模块。第一个模块处理过去24小时的历史数据,包括地面每小时浓度、一次性的卫星柱密度数据和每小时气象因素,以模拟排放反演和数据融合。第二个模块则根据气象变化和第一个模块的输出(代表排放水平和初始条件)预测未来72小时的浓度。这种设计与我们之前的DeepCTM框架相一致,其中早期时间步的预测浓度被用作后续预测的初始条件。这种方法反映了空气污染物在大气中的双重作用:一方面通过化学和物理过程相互作用(Role 2),另一方面由于时间积累而形成基础浓度(Role 1),从而为未来预测提供依据。
为了更好地理解DeepFC在空气质量预测中的优势,我们进行了额外的实验,以归因于模型性能的提升,这些结果在表1中进行了总结。首先,我们使用预训练模型(称为DeepFC-pre)直接进行空气质量预测,因为该模型不包含任何观测数据输入,主要反映CMAQ模拟的结果。DeepFC-pre的性能与原始CMAQ模型非常接近,所有PM?.?、O?和NO?预测的差异极小(图4中的橙色条与蓝色条对比)。这表明DeepFC能够通过捕捉大气系统中的内在相关性来有效再现传统CTM的输出。此外,这还意味着可以通过历史浓度(包括地面观测和柱密度)推断排放,而无需依赖传统CTM中显式的排放清单。
其次,我们引入了观测数据作为DeepFC-pre的输入,但不进行额外的训练或微调,形成了一个称为DeepFC-init的版本。与预训练版本不同,DeepFC-init利用历史观测数据更好地表示当前污染水平(初始条件)并改进从历史观测中推断的排放估计。与DeepFC-pre相比,DeepFC-init表现出显著的改进,突显了将真实观测数据整合到空气质量预测中的有效性。最显著的改进出现在前24小时内,随着时间推移,初始条件的影响逐渐减弱,而排放的影响则更为持久(图4中的绿色条)。对于O?而言,这种效应更加明显,因为O?受排放的影响较小,表明随着时间的推移,误差传播或化学和物理机制的不确定性可能起着更重要的作用。
第三,我们对DeepFC模型进行了微调(称为DeepFC-fuse),以进一步更新其参数并优化其学习的相关性。微调使DeepFC能够更好地利用观测数据,不仅改进排放和初始条件的表示,还解决了模型机制中未知或未被考虑的缺陷,并减轻了长期预测中的误差传播。从图4中可以看出,微调后的DeepFC-fuse模型在DeepFC-init的基础上进一步提高了预测精度,说明其在应对模型机制限制方面具有有效性。与DeepFC-init相比,DeepFC-fuse在预测过程中保持了较高的准确性,而DeepFC-init的性能则随时间逐渐下降,这表明DeepFC-fuse在应对模型机制限制方面具有显著优势。
为了评估气象条件对空气质量预测的影响,我们还引入了DeepFC-dynamic,该模型仅依赖历史气象变量,而不整合未来预测的气象数据。结果显示,气象条件在空气质量预测中起着至关重要的作用,特别是在较长的预测周期中。与DeepFC-fuse相比,DeepFC-dynamic的性能显著较低,因为它缺乏未来气象条件的实时约束,导致长期预测中出现更大的不确定性(图4中的紫色条)。对于NO?而言,这一影响尤为明显,因为NO?作为一次污染物,其浓度变化对排放和初始条件更加敏感,因此准确预测气象条件是实现可靠空气质量预测的前提。
DeepFC不仅在预测精度上有所提升,还提供了丰富的政策见解。通过简单地调整输入特征,DeepFC使政策制定者能够高效地进行敏感性分析,从而超越了传统CTMs需要大量计算资源的限制。首先,我们利用DeepFC根据方法部分中描述的公式(1)计算了源-受体传输矩阵,从而明确了解每个目标省份的主要污染传输路径。通过按不同PM?.?污染水平对天数进行分组,我们能够识别特定地点的主要贡献源。如图5所示,低污染日和高污染日的传输路径存在显著差异。例如,在北京(图5中的BJ),低污染日的主要污染传输来自内蒙古(IM),而在高污染日则来自河北(HEB)。此外,江苏(JS)在高污染日成为上海(SH)污染的主要来源,当主导风向来自北方时。尽管DeepFC无法准确确定原始污染源,因为长距离传输可能会掩盖真实的排放源,但该模型仍然能够提供有价值的污染流动信息,使政策制定者能够识别关键贡献地区,从而采取有针对性的缓解措施。
其次,我们利用公式(2)高效地量化了排放-浓度关系的完整响应。结果表明,DeepFC能够有效捕捉化学形成的非线性行为,特别是对于O?。如图6所示,O?浓度对排放相关特征的响应表现出更强的非线性。具体来说,PM?.?的浓度随着排放减少几乎呈线性下降,而O?的浓度在高或严重污染水平下会先下降,然后在较低浓度水平下回升。这种行为主要归因于O?形成的非线性特性:在VOC受限的条件下(通常在较低的O?浓度下),NOx排放的减少可能适得其反;而在NOx受限的条件下(通常在高O?污染时),减少排放则更为有效。这种现象也可以在O?对特征调节的季节性响应中观察到。NO?柱密度在寒冷季节与O?呈负相关,但在温暖季节则变为正相关(图S1)。AOD和NO?则与PM?.?呈正相关(图S2)。每种气象变量的敏感性与已知的大气领域知识一致,表明DeepFC能够有效捕捉大气化学中的复杂非线性行为,这对于准确预测未来几天的空气质量浓度至关重要。
此外,我们利用公式(3)分析了气象条件变化和排放相关特征变化对O?和PM?.?浓度变化的影响。如图7所示,DeepFC成功捕捉了O?和PM?.?的年际变化(相对于前一年),并且进一步量化了排放相关和气象变化的贡献(分别显示为绿色和红色条)。对于PM?.?,排放是浓度变化的主要驱动因素,其持续下降主要归因于排放减少,而气象因素则在正负影响之间波动。一个有趣的发现是,从2013年到2017年,O?浓度的增加主要由排放相关因素驱动,这与先前研究中指出的NOx和VOC控制不平衡导致O?水平上升的观点一致。相比之下,2017年之后O?的下降,特别是在2020年新冠疫情期间的封锁措施,也主要归因于工业和交通活动的减少所导致的排放减少。
尽管DeepFC在预测准确性和效率方面取得了显著进展,但其仍存在一定的局限性。在我们之前的研究中(Li and Xing, 2024),发现子网格尺度上的排放异质性可能导致NO?的低估。大多数地面监测站位于城市中心,而与PM?.?或O?不同,NO?作为一次污染物,在子网格尺度上表现出更大的空间梯度。因此,CMAQ模型相对较粗的分辨率(27公里×27公里)可能会导致预测偏差。同样,DeepFC在相同网格尺度下训练,也可能面临无法解析细尺度空间变化的限制。更高分辨率的建模对于准确捕捉一次污染物浓度的空间梯度至关重要。尽管我们当前的研究基于中国相对粗分辨率的模拟(27公里),但该框架可以进一步下采样到更高分辨率的目标区域,以提升预测性能,前提是关键输入数据如气象条件和地理信息可用。数值模型在有高质量输入数据支持的情况下,可以通过嵌套的高分辨率区域来受益,特别是对于排放(Tan et al., 2015;Tao et al., 2020);然而,模型性能的提升并不一定能够保证,因为排放和其他输入的不确定性可能会抵消更高分辨率带来的优势(Ansari et al., 2019)。此外,选择细网格需要基于先验知识,否则关键污染过程可能被忽略(Garcia-Menendez et al., 2011)。此外,嵌套模拟严重依赖于准确的边界条件,特别是对于O?和PM?.?等污染物,这又需要在较大的、较粗的域上进行准确的模拟,从而带来显著的计算负担和巨大的存储需求,这使得全国范围内的高分辨率建模变得不可行(Feng et al., 2014;Zheng et al., 2015)。尽管如此,未来在更高空间分辨率上的研究仍然重要,特别是为了捕捉更详细的污染空间模式。我们提出的模型为整合地面观测数据与CTM输出提供了一种高效且可扩展的方法,从而提高了高分辨率空气质量预测的准确性和计算效率。
尽管DeepFC似乎可以替代传统CTMs,但这并不意味着CTMs不再重要。相反,DeepFC的训练是建立在CTM模拟之上的,这是不能忽视的关键步骤。使用CTM模型进行数据同化研究在空气质量预测中被广泛应用,但通常需要排放更新或数据融合来改进初始条件。我们的DeepFC模型相较于传统基于CTM的数据同化方法具有显著更高的效率,同时在准确性方面也与以往的数据同化研究相当(Sun et al., 2020;Wu et al., 2023)。然而,仅依靠观测数据训练的模型通常在缺乏监测数据的区域面临空间泛化能力的挑战。即使在用于初始化条件的数据融合应用中,仅依赖观测数据训练而没有预训练的模型也会因样本不平衡而遇到显著困难。这种问题在直接从稀疏观测数据中学习时尤为明显,限制了模型的准确性和泛化能力。我们之前的研究表明,样本不平衡是空气质量研究中的关键挑战。大多数地面测量集中在城市区域,这意味着如果仅使用城市数据进行训练,模型可能无法很好地泛化到其他区域,如没有监测站点的农村地区。为了解决这一问题,我们进行了一项实验,仅基于观测数据对DeepFC进行微调,而不使用模拟数据。结果表明,在农村和下风区域,模型的预测存在显著高估,与原始CTM相比显得不合理(补充信息文本S1)。显然,结合CTM模拟(不一定要与预测时间一致)来平衡测量数据对于空气质量应用至关重要。
尽管我们的研究仅针对未来72小时(3天)的预测进行了训练,但该模型可以扩展到预测多达一周(补充信息文本S2)。然而,由于误差传播问题,模型的性能会随时间下降。尽管如此,该模型展示了其在预测过程中不仅能够处理输入数据,还能够应对底层机制的能力,其有效性可以持续超过训练期。我们训练模型用于预测未来三天,但将其应用于预测未来七天。我们还尝试将训练期延长至七天,但由于计算资源有限和数据集的大小(需要在每个周期中平衡内存限制和训练规模),改进效果有限。然而,如果拥有更强大的计算资源,DeepFC预测更长时间(如几周)的能力将显著提升。此外,气象条件的准确性仍然是需要进一步提升的限制因素。
尽管本研究仅采用MODIS-AOD和OMI-NO?卫星作为DeepFC的输入来预测浓度,但其他卫星产品也可以用于进一步提升模型性能,例如甲醛、氨气和具有更大时间覆盖的静止卫星。建议未来研究使用多种卫星产品来改进模型。我们在训练中使用了WRF再分析数据作为气象输入,这些数据可能包含偏差(Liu and Xing, 2023;Fan et al., 2024),这些偏差可能会导致CMAQ模拟和DeepFC中的不确定性。未来的研究可以通过引入更丰富的气象观测数据集来进一步减少这些偏差,从而提升模型的准确性和可靠性。此外,本研究的模型分辨率是27公里×27公里,但随着卫星数据的进一步发展,如TROPOMI-NO?,这一分辨率可以进一步优化,以支持高分辨率暴露数据的公共卫生暴露分析和环境正义研究。