将因果推断与可解释的自动化机器学习相结合,以识别中国东部近地表臭氧浓度的驱动因素

《Environmental Modelling & Software》:Integrating causal inference and interpretable automated machine learning to identify drivers of near-surface ozone concentration in eastern China

【字体: 时间:2025年11月19日 来源:Environmental Modelling & Software 4.6

编辑推荐:

  东中国2022-2023年近地面臭氧污染驱动机制研究,采用自动建模(Extra Trees)结合SHAP解释与因果推断(CF、DML)方法,发现气象变量主导臭氧变异,2米温度(2mT)在山东、江苏等地呈显著正向因果效应,对流层臭氧柱浓度(Tor_O3)在苏北浙北影响突出,高温与强辐射通过促进光化学反应加剧臭氧生成,空间异质性显著,成果为区域空气质量管理提供理论支撑。

  近年来,中国东部地区近地面臭氧(O?)污染问题日益严峻,呈现出高浓度、频繁发生以及显著的时空异质性等特征。这种污染趋势不仅对人类健康构成威胁,还对生态环境产生深远影响。因此,深入理解O?污染的驱动机制,对于制定有效的区域空气质量管理政策具有重要意义。然而,由于影响O?形成的多种因素之间存在复杂的非线性相互作用,传统的统计方法或单一的机器学习模型在揭示其形成机制方面存在局限性。为此,本研究构建了一个集成的分析框架,结合了“自动化建模–特征解释–因果推断”三个关键步骤,以系统识别中国东部地区2022–2023年O?浓度变化的主要驱动因素。

臭氧是一种重要的大气成分,约90%的臭氧存在于平流层,主要功能是吸收太阳紫外线辐射,从而保护地球生态系统。然而,近地面臭氧作为主要的二次污染物,对人类健康和环境构成了显著风险。长期暴露于高浓度臭氧环境中,可能导致心血管和呼吸系统疾病的发生率和死亡率上升,同时损害肺功能和引发气道炎症。此外,臭氧还可能通过氧化挥发性有机化合物(VOCs)参与二次颗粒物的形成,从而加剧空气污染问题。在中国东部地区,随着城市化进程和工业化水平的提升,NO?和VOCs等前体物的排放量大幅增加,进一步促进了臭氧的生成。特别是在夏季,该地区多次出现严重的臭氧污染事件,部分城市的年均臭氧浓度已超过国家二级空气质量标准的上限,显示出臭氧污染的严峻形势。

近地面臭氧的形成是一个复杂的化学过程,主要依赖于NO?和VOCs之间的光化学反应。这些反应在强烈太阳辐射的条件下尤为活跃,从而导致臭氧浓度的上升。然而,臭氧的形成不仅仅受到化学前体物的影响,还受到气象条件的显著调控。温度、湿度、风速和边界层高度等气象变量能够通过改变光化学反应速率和前体物的传输路径,对臭氧的时空分布产生重要影响。例如,高温和强辐射条件有助于臭氧的生成,而降水和强风则可能抑制其形成。此外,边界层的压缩和低风速条件下,污染物更容易在地表积累,从而导致臭氧浓度升高。除了NO?和VOCs,其他前体物如SO?、CO和细颗粒物(PM?.?)也对臭氧形成起到重要作用。SO?和CO参与调节臭氧的生成,而PM?.?则可能通过吸收或散射太阳辐射以及提供异质反应表面,对臭氧的形成产生增强或抑制效应。

传统的数值化学传输模型(CTMs)和统计模型在臭氧研究中发挥了重要作用,但它们在处理复杂、非线性的臭氧形成机制方面存在明显不足。CTMs虽然能够模拟臭氧的形成和传输过程,但受限于较低的空间分辨率、高昂的计算成本以及对排放清单的依赖性,其在实际应用中面临诸多挑战。而常规的统计模型,如线性回归或多变量回归,只能捕捉臭氧与影响因素之间的线性关系,难以揭示其背后的非线性相互作用。因此,迫切需要引入数据驱动的方法,以更准确地刻画臭氧形成过程中各变量之间的复杂依赖关系。

近年来,机器学习(ML)技术在臭氧研究中展现出巨大潜力。通过灵活建模非线性关系和多因素交互作用,ML方法能够显著提高臭氧预测的准确性,并为识别关键驱动因素提供新的视角。例如,随机森林(RF)、极端梯度提升(XGBoost)和卷积神经网络(CNNs)等算法已被广泛应用于臭氧预测,并在某些研究中显示出优于传统模型的性能。特别是,结合SHAP(Shapley Additive exPlanations)分析的XGBoost模型,不仅在预测能力上表现出色,还能够提供可解释的特征重要性评估,从而揭示臭氧形成的关键因素。此外,深度学习和混合模型的结合也逐渐成为研究热点,如AGU团队提出的NetGBM架构以及GEOS-Chem耦合框架,这些方法通过整合神经网络与数值模拟,能够更全面地捕捉臭氧变化的气象和人为驱动因素。

尽管可解释的机器学习方法在臭氧研究中取得了重要进展,但它们仍然存在一定的局限性。首先,这些方法本质上是基于相关性的分析,难以区分因果关系。这意味着,某些变量可能与臭氧浓度高度相关,但并不一定具有直接的因果效应。其次,当存在潜在的混杂因素或反馈机制时,相关性分析可能会导致错误的因果推断。为了解决这些问题,近年来研究开始将因果推断方法与机器学习相结合,以更准确地识别臭氧变化的真正驱动因素。例如,Wang等人(2025)采用因果推断框架分析了中国2022年的臭氧反弹现象,发现仅基于相关性的模型可能会错误地归因于气象和排放变量之间的协同作用。在此基础上,因果森林(CF)和双重机器学习(DML)等方法逐渐成为研究重点。CF能够捕捉不同环境下的因果响应异质性,而DML则提供了在高维混杂因素下的无偏和一致的平均处理效应(ATEs)估计。因此,结合CF和DML的方法能够同时评估臭氧变化的全局因果关系和局部敏感性,从而弥补传统方法在因果解释方面的不足。

基于上述背景,本研究构建了一个集成的分析框架,将自动化建模、可解释机器学习和因果推断相结合,以系统识别中国东部地区近地面臭氧浓度变化的主要驱动因素。首先,采用自动化机器学习(AutoML)方法对臭氧浓度进行建模,以评估气象、排放和环境变量的非线性贡献。其次,通过SHAP分析对模型结果进行特征解释,以量化各变量对臭氧浓度变化的影响程度和方向。最后,利用因果森林(CF)和双重机器学习(DML)方法进行因果推断,以估计不同区域和时间段内臭氧变化的因果效应,揭示关键驱动因素的时空异质性。该方法不仅能够提高臭氧预测的准确性,还能够提供更具解释力的因果关系分析,从而为区域空气质量管理提供科学依据。

本研究的分析区域覆盖中国东部地区,包括山东、江苏、安徽、浙江、江西、福建以及上海等省份和直辖市。这些地区是中国经济最发达、城市化程度最高、工业化最集中的区域之一,但同时也面临着严重的近地面臭氧污染问题。通过结合AutoML、SHAP和因果推断方法,本研究能够更全面地识别影响臭氧浓度的关键因素,并揭示其在不同区域和时间段内的变化规律。研究结果表明,气象变量在臭氧浓度变化中占据主导地位,其中2米气温(2mT)对臭氧形成具有显著的正向因果效应,尤其是在山东和江苏等高排放省份。此外,对流层臭氧柱浓度(Tor_O?)作为区域背景传输的指标,在江苏中部和浙江北部地区也表现出较强的因果影响。SHAP分析进一步表明,气温升高和强辐射条件能够促进光化学反应,从而增强臭氧的生成。CF和DML方法获得的一致因果方向和空间分布结果,验证了研究发现的稳健性。

在数据方面,本研究选取了与近地面臭氧浓度相关的20个变量,涵盖气象、排放和环境等多个领域。这些变量的来源和规格详见表1,其统计特征通过直方图和箱线图在图6中进行了展示。气象变量,如2米气温、相对湿度和风速等,表现出近似对称的分布特征,且具有适中的变异系数。这些变量在臭氧形成过程中起着关键作用,能够通过调节光化学反应速率和污染物传输路径,显著影响臭氧浓度的变化。此外,研究还关注了臭氧浓度的时间变化特征,采用日尺度的数据进行分析,以揭示臭氧污染的短时气象驱动因素。虽然本研究的时间范围仅限于2022年3月至2023年2月,但考虑到中国东部地区臭氧浓度的年际变化相对较小,而其季节性和日变化特征较为显著,因此所选时间段仍具有代表性,能够为机制导向的建模研究提供可靠的数据支持。

本研究的结论表明,构建一个集成的分析框架,将自动化建模、可解释机器学习和因果推断相结合,是识别和量化近地面臭氧浓度变化的关键驱动因素的有效途径。通过Extra Trees模型进行预测,SHAP分析用于特征解释,CF和DML方法用于因果推断,研究不仅揭示了影响臭氧浓度的主要变量,还验证了这些变量的因果效应。此外,研究结果还表明,气象条件在臭氧形成过程中起着主导作用,而前体物排放则在特定区域和时间段内具有重要影响。这种综合分析方法能够更全面地理解臭氧污染的形成机制,为制定精准的区域空气质量管理政策提供科学依据。

本研究的创新之处在于,通过整合AutoML和因果推断方法,克服了传统统计和数值模型在处理复杂、非线性臭氧形成机制方面的不足。AutoML方法能够自动完成数据预处理、算法选择、特征工程和超参数调优等步骤,从而提高模型的可重复性和稳健性。而SHAP分析则能够提供可解释的特征重要性评估,帮助研究人员更直观地理解臭氧形成的关键因素。CF和DML方法则能够在高维数据背景下,提供无偏和一致的因果效应估计,从而揭示臭氧变化的真正驱动因素。这些方法的结合不仅提升了臭氧预测的准确性,还增强了模型的解释能力,为臭氧污染的深入研究和管理提供了新的思路。

本研究的成果对于中国东部地区的空气质量管理和环境保护具有重要意义。首先,研究结果表明,2米气温是臭氧浓度变化的主要驱动因素之一,特别是在高排放省份如山东和江苏,这一变量的正向因果效应尤为显著。这意味着,在制定臭氧污染防控政策时,应特别关注气温变化对臭氧生成的影响,尤其是在高温和强辐射条件下,可能需要采取更加严格的管控措施。其次,对流层臭氧柱浓度(Tor_O?)在江苏中部和浙江北部地区表现出较强的因果影响,这提示我们应加强对区域背景传输过程的监测和调控,以减少外来臭氧的输入。此外,SHAP分析显示,气温升高和强辐射条件能够促进光化学反应,从而增强臭氧的生成。因此,在气象条件较为有利的季节或地区,应特别注意臭氧污染的防控,避免其浓度进一步上升。

在方法论层面,本研究提出了一种新的分析框架,将自动化建模、可解释机器学习和因果推断相结合,为臭氧污染研究提供了新的技术路径。这种方法不仅能够提高臭氧预测的准确性,还能够揭示其形成机制中的因果关系,从而为政策制定提供更科学的依据。此外,研究结果还表明,不同区域和时间段内臭氧变化的驱动因素可能存在显著差异,这提示我们在进行区域空气质量管理时,应充分考虑时空异质性,采取因地制宜的措施。例如,在高排放地区,应重点控制NO?和VOCs的排放;而在气象条件较为有利的地区,则应加强监测和预警,及时采取应对措施。

本研究的成果还为未来的臭氧污染研究提供了方法论上的指导。首先,研究强调了AutoML和因果推断方法在处理复杂环境问题中的重要性,表明这些方法能够有效克服传统模型在处理非线性关系和多因素交互作用方面的不足。其次,研究展示了SHAP分析在臭氧研究中的应用价值,表明其不仅能够量化变量的重要性,还能够揭示变量对臭氧浓度变化的影响方向。最后,研究结果还表明,结合CF和DML方法可以同时评估臭氧变化的全局因果关系和局部敏感性,从而提供更全面的分析视角。这些方法的结合为臭氧污染研究提供了一种新的范式,即在确保预测性能的同时,增强模型的可解释性和适应性。

综上所述,本研究通过构建一个集成的分析框架,系统识别了中国东部地区近地面臭氧浓度变化的主要驱动因素,并揭示了其在不同区域和时间段内的变化规律。研究结果表明,气象条件在臭氧形成过程中起着主导作用,而前体物排放则在特定区域和时间段内具有重要影响。此外,研究还展示了AutoML、SHAP、CF和DML等方法在臭氧研究中的应用价值,表明这些方法能够有效克服传统模型的局限性,为臭氧污染的深入研究和管理提供新的技术路径。本研究的成果不仅有助于提升对臭氧污染形成机制的理解,还为制定精准的区域空气质量管理政策提供了科学依据。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号