使用深度学习算法量化PM2.5空间预测中的不确定性

《Annals of GIS》:Quantifying uncertainty in the spatial prediction of PM2.5 using a deep learning algorithm

【字体: 时间:2025年11月06日 来源:Annals of GIS 3.3

编辑推荐:

  PM2.5污染预测中不确定性分析及深度学习方法应用研究

  空气污染,尤其是细颗粒物(PM2.5)在像德黑兰这样的城市地区对健康构成显著威胁。尽管已有研究尝试预测PM2.5污染高发区域,但不确定性仍然是一个挑战,影响了有效缓解策略的制定。本研究旨在填补这一空白,通过深入分析德黑兰PM2.5预测中的不确定性,来提高空气质量评估的可靠性。为此,研究人员建立了一个包含11个影响PM2.5浓度的因子的数据库,用于建模分析。本研究采用了一种深度学习方法,即卷积神经网络(CNN),来建模和预测PM2.5污染高风险区域。通过Shannon熵和Dempster-Shafer理论,研究人员评估了预测PM2.5污染高发区域的不确定性,同时使用经验贝叶斯克里格(EBK)插值和高斯噪声来研究输入因子的不确定性。此外,贝叶斯神经网络(BNN)算法被引入以评估模型参数的不确定性。

研究结果显示,使用接收者操作特征(ROC)曲线评估的PM2.5污染高发区域地图中,CNN算法在预测易感区域方面达到了97.7%的准确率,BNN-CNN算法在参数校准模型预测中达到了95%的准确率,而CNN算法在噪声数据预测场景中达到了82.7%的准确率。不确定性分析表明,德黑兰的中央区域在预测PM2.5污染高发区域时显示出较高的可靠性,而西部和东部地区,尤其是在边界地带,显示出更高的不确定性。

德黑兰作为伊朗的首都,是该国人口最多的城市,拥有超过860万人口,占据了伊朗总人口的16%。德黑兰位于阿拉穆特山脉的斜坡上,地理坐标为北纬35°36′至35°44′,东经51°17′至51°33′。德黑兰具有半干旱气候,年平均气温为17.1°C,气温范围从最高44°C到最低-8°C。年均降水量为231毫米,每年约有49天出现霜冻。德黑兰拥有伊朗一半以上的工业设施,包括电力、纺织、汽车、水泥和化工等行业,因此面临着严重的交通拥堵、空气污染和呼吸系统疾病等问题。由于其颗粒小且质量轻,PM2.5能够在大气中滞留较长时间,并且容易通过空气传播。这种特性对大气能见度、人类健康和日常活动产生了重要影响。

研究还指出,PM2.5污染每年导致数百万例过早死亡和7600万健康生活年数的损失。在中东九个国家中,由于长期暴露于PM2.5污染,预计有大约153,000人因此死亡。伊朗在195个国家中,PM2.5平均浓度排名第152位,这一污染物每年导致约75,000人死亡,相当于伊朗每四例死亡中就有一例与PM2.5暴露有关。鉴于PM2.5的有害影响,早期预警、应急响应和紧急计划至关重要。为了制定这些计划,评估和警告公众关于潜在危险水平的可靠预测模型是必不可少的。

传统的数值模型和统计模型在预测污染物浓度方面有一定的应用,但它们通常依赖于精确的排放数据,而这些数据往往难以获取,且需要大量的计算资源和时间。统计模型适合处理短数据集和单变量时间序列模型,但它们不能有效处理非线性关系。相比之下,基于人工智能的模型可以超越统计模型的限制,特别是在处理非线性数据时表现出色。AI模型能够管理PM2.5污染因素之间的复杂交互,并提供一种有效的空气污染预测方法。此外,将AI模型与地理信息系统(GIS)技术结合,可以有效地评估城市空气质量并支持城市规划。

在本研究中,采用了多种方法来评估PM2.5污染预测中的不确定性,包括输入数据不确定性、特征不确定性、预测不确定性以及模型参数不确定性。通过EBK插值方法评估输入数据的不确定性,这种方法在插值过程中会持续更新半变异函数参数,从而更准确地量化空间预测中的不确定性。在对最显著的输入因子中加入高斯噪声,可以分析这些因子的变化对模型预测的影响。Dempster-Shafer理论用于评估PM2.5污染发生与影响因素之间的空间关系不确定性,这种方法可以结合多个来源的证据,量化信念和怀疑程度,从而在数据不完整或不精确的情况下评估不确定性。Shannon熵用于评估预测PM2.5污染高发区域的不确定性,而贝叶斯神经网络(BNN)算法则用于分析模型参数的不确定性。

本研究中使用的CNN模型由多个层次构成,包括输入层、三个卷积层(分别有32、64和128个过滤器)、激活函数(如ReLU)和最大池化层(池化大小为2×2)。CNN模型通过自动提取特征和学习数据中的最优特征,有效捕捉复杂的空间依赖性和时间模式。模型优化使用Adam优化器,学习率设置为0.001,批量大小为32,并通过早停机制防止过拟合。BNN-CNN混合模型结合了CNN在特征提取上的优势和BNN在预测不确定性上的能力,使模型能够提供预测的分布,从而反映模型输出的不确定性。

研究还发现,使用Shapley值方法可以评估影响PM2.5污染的因素的重要性,而通过在这些因素中引入高斯噪声,可以分析这些因素的变化对模型预测的影响。此外,通过贝叶斯神经网络分析模型参数的不确定性,可以提供更精确的预测和更高的模型可靠性。本研究通过多种不确定性评估方法,系统地分析了PM2.5污染高发区域预测过程中的不确定性,为制定有效的缓解策略提供了坚实的理论基础和实践指导。

最终,本研究的结果表明,德黑兰的中央区域在预测PM2.5污染高发区域时显示出较高的可靠性,而西部和东部地区,尤其是在边界地带,显示出较高的不确定性。因此,在这些区域进行预测时需要更加谨慎。通过结合多种不确定性评估方法,本研究不仅提高了预测的准确性,还增强了模型的可靠性,为城市空气质量管理和政策制定提供了重要支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号