《Atmospheric Environment》:Photochemically corrected machine learning framework for real-time VOCs source apportionment in support of air quality management
编辑推荐:
余涵|彭星|易红|谭江瑶|吴江|何莉|黄晓峰|余光和|杜可
北京大学深圳研究生院环境与能源学院城市人居环境科学技术重点实验室,中国深圳,518055
摘要
快速确定挥发性有机化合物(VOCs)的来源对于减轻臭氧(O3)和二次有机气溶胶(SOA)污染至关重要。本研究开发了一个机
余涵|彭星|易红|谭江瑶|吴江|何莉|黄晓峰|余光和|杜可
北京大学深圳研究生院环境与能源学院城市人居环境科学技术重点实验室,中国深圳,518055
摘要
快速确定挥发性有机化合物(VOCs)的来源对于减轻臭氧(O3)和二次有机气溶胶(SOA)污染至关重要。本研究开发了一个机器学习(ML)框架,用于快速、实时地分配VOCs的来源,该框架使用了2022-2023年深圳的每小时VOC观测数据以及通过正矩阵分解(PMF)确定的人为来源贡献作为训练标签,从而实现了高效的操作应用。为了减少大气降解带来的偏差,在模型训练之前对VOC浓度进行了光化学校正。在深圳识别出六个主要来源:交通排放、工业排放、车辆尾气、汽油蒸发、生物质燃烧和生物源。通过使用Shapley加性解释(SHAP)分析和递归特征消除(RFE)进行特征优化,将36种VOC物种减少到17个关键指标,显著提高了计算效率。全特征ML模型与PMF得出的来源贡献结果高度一致(R2 = 0.91–0.99)。经过特征优化后,轻量级模型仍保持了高准确性(R2 = 0.85–0.94),同时将计算成本降低了52%。鲁棒性测试表明,该模型具有稳定的季节性性能(R2 = 0.89–0.97),并且仅使用5%的训练数据即可保留94.8%的预测性能。该框架能够在减少数据和计算需求的情况下高效地再现PMF得出的来源分配结果,为快速模拟PMF结果提供了一种实用且可扩展的方法。其能够提供高时间分辨率的来源归因能力,使其非常适合支持臭氧污染的应急响应。该框架的鲁棒性和适应性表明其具有广泛的应用潜力,为空气质量管理提供了一种精确且数据驱动的策略。
引言
挥发性有机化合物(VOCs)是臭氧(O3)和二次有机气溶胶(SOA)的关键前体,在城市光化学烟雾的形成及相关健康风险中起着核心作用(Ding等人,2023;Huang等人,2025;Li等人,2020)。在大气传输过程中,VOCs在氧化剂(主要是羟基自由基(OH)、臭氧(O3)和硝酸根自由基(NO3)的作用下发生快速转化(Gligorovski等人,2015)。因此,测量的环境浓度往往与初始排放水平有显著差异,导致对高反应性物种(如异戊二烯)的贡献被系统性地低估(Wu等人,2017)。为了缓解这一问题,通常基于化学示踪剂并假设以OH为主导的氧化过程,采用光化学老化校正方法来量化光化学损失并重建初始排放剖面(Liu等人,2025)。因此,准确及时的VOCs来源分配对于制定有效的空气质量控制策略至关重要(Yuan等人,2012)。
除了扩散模型(Byun和Schere,2006)和源排放清单方法(Zheng等人,2018)之外,还将受体模型(如正矩阵分解(PMF)和化学质量平衡(CMB)应用于观测数据,以分配VOC来源(Hui等人,2018)。然而,VOC浓度和组成表现出明显的时间变化性,这是由于排放模式、气象条件和大气化学降解的快速变化所致(Yuan等人,2012;Zhang等人,2017)。这种快速变化性要求快速、高分辨率的来源分配,以便实时可靠地追踪不断变化的VOC来源。随着高时间分辨率在线测量技术(如自动气相色谱-质谱法(GC-MS)的进步,具有接近实时分辨率的观测数据集变得越来越可用(Wang等人,2014),理论上可以实现快速来源分配,从而捕捉这些快速的变化(Liu等人,2008a,2008b)。然而,传统的受体模型需要繁琐的数据预处理和大量的主观专家干预,这限制了它们对VOC来源快速动态的响应能力,阻碍了实际的实时来源分配(Belis等人,2013)。这一技术限制突显了机器学习(ML)的巨大潜力,ML能够有效捕捉复杂的非线性源-受体关系,从而补充了传统方法(Wang等人,2022;Zhang和Li,2022)。实际上,ML正成为解决这些特定挑战的强大工具。在颗粒物(PM)的背景下,ML框架整合了多维数据(例如形态和化学性质),克服了传统模型的高不确定性和主观限制,在分配化学性质相似的来源方面显著提高了准确性(Zhao等人,2025)。同样,对于反应性气体,ML技术也被用来优化示踪剂选择和量化特征重要性,直接解决了由复杂大气老化引起的不确定性(Zou等人,2025)。总的来说,这些应用强调了ML在推进数据驱动的大气来源分配方面的变革性作用。
在各种机器学习算法中,基于树的集成模型——特别是极端梯度提升(XGBoost)——在环境科学中越来越受到重视,因为它们在处理非线性关系和高维相互作用方面表现出强大的鲁棒性(Chen和Guestrin,2016;Ivatt和Evans,2020;Lin等人,2022)。当与可解释性技术(如Shapley加性解释(SHAP)结合使用时,这些模型克服了传统“黑箱”方法的固有不透明性,不仅提供了高预测准确性,还提供了对特征贡献的透明、定量见解(Lundberg和Lee,2017;Stirnberg等人,2021)。本研究旨在建立一个基于XGBoost-SHAP架构的可解释机器学习框架,以实现实时VOC来源分配,同时平衡计算效率和预测准确性,并为空气质量管理提供了一个简化且可扩展的工具。
在这项工作中,2022年至2023年期间在深圳进行了VOCs的每小时观测。深圳是珠江三角洲地区的一个代表性大城市,尽管有效控制了PM2.5污染,但仍面临持续的臭氧污染问题(Jiang等人,2021;Li等人,2019;Peng等人,2022;Wang等人,2017)。对观测数据进行了光化学校正,以更准确地表示初级VOC排放(He等人,2019;Parrish等人,1992),然后使用PMF模型对VOCs进行来源分配。基于XGBoost的框架使用每小时VOC数据集进行训练,以PMF得出的人为来源贡献作为监督标签。通过SHAP分析和递归特征消除(RFE),开发了一个轻量级模型,该模型在保持高准确性的同时提高了计算效率(Guyon等人,2002;Yan等人,2024)。通过多维度评估(包括在不同时间尺度上的交叉验证和关于数据样本大小的敏感性分析)严格评估了该框架的鲁棒性。通过提供一个经过验证的、计算效率高且可解释的工具,本研究为增强实时空气质量管理和实现城市环境中数据驱动的精确大气污染控制开辟了一条新的技术途径(Zhang等人,2019)。
章节片段
采样点
VOC采样点(22.60° N, 113.98° E)位于中国南部粤港澳大湾区的北京大学深圳研究生院大楼的屋顶(距地面约20米),被认为是具有代表性的城市采样点。采样站的详细地理位置如图S1所示。使用在线气相色谱-质谱仪以每小时一次的分辨率连续监测环境中的VOCs
VOCs组成和来源
在两年的观测期间(2022年1月至2023年12月),总VOCs(TVOCs,包含106种量化物种)的平均浓度为24.57 ppb(图1a)。烷烃是最丰富的组,含量为9.54 ppb(占总TVOCs的38.8%),其次是卤代烃(5.10 ppb,20.8%)、含氧挥发性有机化合物(OVOCs,4.03 ppb,16.4%)和烯烃(2.01 ppb,8.2%),而乙炔和乙腈的浓度相对较低
结论
本研究提出的实时ML来源分配框架将机器学习与大气化学原理相结合,实现了VOC排放的每小时分辨率归因。使用深圳数据集的验证结果表明,该框架能够高精度地再现PMF得出的人为贡献,并具有稳定的季节性性能。这种方法提供了一种可扩展的、自动化的、科学上可解释的解决方案,提供了近乎实时的决策支持
CRediT作者贡献声明
余涵:正式分析、软件开发、可视化、撰写——初稿。彭星:概念化、撰写——审阅与编辑。易红:资源获取、验证。谭江瑶:可视化。吴江:可视化。何莉:可视化。黄晓峰:概念化、撰写——审阅与编辑。余光和:资源获取、验证。杜可:概念化、撰写——审阅与编辑。
利益冲突声明
作者声明他们没有已知的可能会影响本文工作的财务利益或个人关系。
致谢
本工作得到了深圳市科学技术计划(JCYJ20250604175905007)和IER基金会2024年(IERF202404)的支持。