利用低至中等成本的传感器对城市范围内超细颗粒物的分布差异进行建模:土地利用回归方法与机器学习方法的比较
《Journal of Environmental Chemical Engineering》:Modeling City-wide Intra-Urban Variations of Ultrafine Particles via low-to-middle cost sensors: Comparisons between Land Use Regression and Machine Learning Approaches
【字体:
大
中
小
】
时间:2025年10月08日
来源:Journal of Environmental Chemical Engineering 7.2
编辑推荐:
准确评估城市中黑碳(BC)和超细颗粒物(UFPs)等污染物的暴露水平在监测网络不足的地区仍具挑战。本研究基于苏黎世市中心的小规模监测数据(500m2采样区),开发了四种污染物的高分辨率(50m×50m)预测模型,比较了传统LUR方法(LM-LUR、GAM)与非线性的机器学习方法(随机森林、XGBoost)的预测性能。结果显示,随机森林模型在所有污染物中表现最稳定,具有0.74-0.87的交叉验证R2,外部验证误差范围2.46%-39%,显著优于传统方法。研究证实机器学习能有效处理小数据集的复杂空间交互,为缺乏监测设施的地区提供污染物分布预测框架。
空气污染是当今全球面临的重要环境和公共卫生问题,其对人类健康的影响日益受到关注。特别是在城市环境中,由于污染物的分布具有显著的时空差异性,如何准确评估其暴露水平成为一个挑战。在缺乏密集监测网络的城市中,这一问题尤为突出。本文研究了瑞士苏黎世市的四种主要空气污染物——黑碳(BC)、超细颗粒物(UFPs)、PM10 和 PM2.5 的城市范围预测模型。通过小规模监测活动收集的数据,结合低至中等成本的传感器,研究探讨了传统土地利用回归(LUR)方法与非线性机器学习(ML)方法在预测性能上的差异,并分析了这些模型在扩展到整个城市范围时的表现。
### 研究背景与意义
空气污染,尤其是细颗粒物,对健康的影响深远。例如,PM10 和 PM2.5 已经成为许多城市常见的监管污染物,并且在许多地方都有定期监测。然而,随着对污染物健康影响的进一步认识,黑碳和超细颗粒物因其独特的毒理特性以及可能更深入人体组织的能力,正受到越来越多的关注。世界卫生组织(WHO)也建议将超细颗粒物浓度的上限控制在 20,000 #/cm3 以下,以减少长期暴露带来的健康风险。尽管这些污染物的健康影响已被广泛研究,但许多城市,特别是发展中国家和监测不足的地区,缺乏足够的空气质量监测基础设施,难以准确评估其在城市内部的分布情况。
传统的空气质量监测网络虽然能够提供高精度的数据,但其空间覆盖范围有限,无法有效捕捉像黑碳和超细颗粒物这样的局部尺度污染物的变化。此外,近年来移动监测和低成本传感器技术的发展,使得研究人员能够收集高空间分辨率的数据。这为那些缺乏传统监测设施的城市提供了新的可能性。然而,如何将这些有限的小规模数据扩展到整个城市范围,仍然是一个关键挑战。机器学习算法因其处理复杂数据的能力,被认为可以提高预测模型的性能,特别是在捕捉污染物的空间分布方面。
### 方法与技术
研究采用了一种结合小规模监测与机器学习的方法,以开发适用于整个城市的高分辨率预测模型。在苏黎世市中心开展了一项为期两个月的小规模监测活动,覆盖了一个 500 平方米的区域。共选取了 10 个采样点,并在每天重复的采样路线中进行监测。通过这些数据,研究构建了四个不同类型的模型:基于多重线性回归的 LUR(LM-LUR)、广义可加模型(GAM)、随机森林(RF)和极端梯度提升(XGBoost)。这些模型在不同的空间预测域中进行了训练和验证,其中模型域 1 覆盖采样区域(500 平方米),而模型域 2 则涵盖了整个苏黎世市(87.88 平方公里)。所有模型均以 50 米 × 50 米的分辨率进行预测,并通过外部验证评估其在城市尺度上的表现。
为了提高模型的准确性,研究还采用了时间调整方法,以弥补短期监测数据在时间覆盖上的不足。具体来说,通过参考站(ZUE)的长期观测数据,对短期监测数据进行了调整。此外,研究还对数据进行了预处理,包括去除异常值和使用标准的校正算法处理原始数据。
### 模型性能评估
研究结果显示,非线性机器学习模型在预测性能上优于传统 LUR 方法。其中,随机森林(RF)表现最为稳健和一致,其重复留一法(LOOCV)的 R2 值范围在 0.74 到 0.87 之间,外部验证的预测误差在 2.46% 到 39% 之间。相比之下,传统 LUR 方法(如 LM-LUR 和 GAM)在应用于较大的预测域时表现出不一致的性能。尽管传统 LUR 方法在某些污染物(如 BC 和 UFPs)的预测中具有较高的 R2 值,但其在扩展到整个城市范围时,预测误差较大,可能是因为其未能充分捕捉复杂的污染物-预测因子相互作用。
研究还分析了各污染物在城市内部的空间变异情况。例如,超细颗粒物(UFPs)和黑碳(BC)在不同采样点之间表现出显著的空间差异,而 PM10 和 PM2.5 的浓度则相对均匀。这表明,对于具有高度空间变异性的污染物,如 UFPs 和 BC,非线性模型能够更好地反映其分布特征。此外,研究还使用了变量重要性分析和 SHAP(Shapley Additive Explanations)方法,进一步揭示了哪些预测因子对污染物浓度的影响最大。结果显示,非线性模型能够利用更多的预测因子(如车辆数量、道路噪音等),从而提高预测的准确性。
### 城市尺度预测与外部验证
在将模型扩展到整个城市尺度时,非线性模型(尤其是 RF)表现出更合理的预测范围和更一致的性能。例如,对于 UFPs,LM-LUR 模型的预测范围为 0 到 133,332 #/cm3,而 RF 模型的预测范围为 7,229 到 10,939 #/cm3,更接近实际观测值。此外,RF 模型的预测误差控制在 2.46% 到 15.07% 之间,远低于传统 LUR 模型的误差范围。外部验证结果进一步支持了这一结论,表明非线性模型在不同监测站点上的表现更加稳定和准确。
对于 PM10 和 PM2.5,非线性模型的预测误差在 0.6% 到 39% 之间,显著优于传统 LUR 模型。虽然传统 LUR 模型在某些站点上表现尚可,但在整体城市尺度上,其预测误差波动较大,难以准确反映污染物的真实分布。这些结果表明,非线性机器学习模型在处理小规模数据并扩展到城市尺度时具有明显的优势。
### 研究局限与未来方向
尽管本研究取得了一定成果,但仍存在一些局限性。首先,所使用的低成本传感器可能在长期运行中出现精度漂移,特别是在湿度和振动等因素的影响下。其次,短期监测数据与参考站的系统差异可能导致对城市内部空间变异的评估存在不确定性。此外,由于没有在监测前进行现场校准,传感器的不确定性可能略有增加。最后,由于采样时间有限,数据可能不完全代表一天中的所有时段,从而影响模型的准确性。
尽管存在这些局限,研究的结果仍为未来在缺乏密集监测网络的地区开展空气污染暴露评估提供了重要的参考。特别是对于像黑碳和超细颗粒物这样的新兴污染物,研究强调了在这些区域中采用小规模监测与机器学习结合的方法的重要性。未来的研究可以进一步关注更细颗粒物(如 PM0.1 和 PM1)的暴露和健康影响,以及影响这些颗粒物浓度的其他因素,如排放源和气象条件。
### 研究意义与展望
本研究不仅为城市尺度的空气污染预测提供了新的方法,还揭示了在不同监测条件下,传统方法与机器学习方法在预测性能上的差异。这些发现对于发展中国家和监测不足的地区具有重要的现实意义,因为它们可以利用低成本传感器和机器学习技术,构建高分辨率的污染物分布模型,从而为制定有效的空气污染控制政策和健康防护措施提供数据支持。此外,研究还强调了在进行空气污染暴露评估时,应更加关注局部排放源和复杂的空间交互作用,以提高预测的准确性。
总的来说,这项研究展示了在缺乏传统监测设施的情况下,利用小规模监测和机器学习方法进行城市尺度污染物预测的潜力。随着技术的进步和数据获取方式的多样化,未来的研究可以进一步优化这些模型,使其更加适用于不同城市和环境条件。同时,也应关注如何提高传感器的稳定性和数据的代表性,以确保预测结果的可靠性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号