《Environmental Modelling & Software》:A novel interpretable ozone forecasting approach based on deep learning with masked residual connections
编辑推荐:
提出ResSelNet模型,结合残差连接与动态特征选择机制,实现多时间尺度环境数据的高效预测。实验表明,该模型在安达卢西亚5个监测站中,较LSTM和Transformer降低8%-12%的RMSE和MAE,同时提升可解释性和鲁棒性。
P. Reina-Jiménez | M.J. Jiménez-Navarro | G. Asencio-Cortés | F. Martínez-álvarez | M. Martínez-Ballesteros
塞维利亚大学计算机语言与系统系,Reina Mercedes大道,41012,西班牙塞维利亚
摘要
空气污染是一个日益严重的威胁,尤其是在低收入和中等收入国家,每年导致超过400万人过早死亡。地面臭氧是一个主要问题,需要准确且可解释的预测系统来有效管理公共卫生。然而,现有的时间序列预测方法难以捕捉大气数据中的线性和非线性依赖关系。本研究介绍了一种名为ResSelNet的新颖残差选择网络,该网络将掩码残差连接和嵌入式特征选择集成到统一的深度学习架构中。该模型动态确定每个特征的最佳处理深度,允许线性关系绕过非线性转换,同时在必要时捕捉复杂模式。在应用于西班牙安达卢西亚地区的五个监测站后,ResSelNet的表现始终优于现有的最佳基线模型,其均方根误差(RMSE)和平均绝对误差(MAE)分别降低了8%至12%。除了准确性之外,该框架还提高了可解释性和鲁棒性,揭示了气象变量和污染物变量的层次相关性。因此,ResSelNet为多时间尺度的环境时间序列预测提供了一个有效且可解释的解决方案。
引言
空气污染是当今最紧迫的挑战之一,是非传染性疾病的第二大风险因素。由于燃烧设备、机动车和森林火灾等多种因素,其影响持续增加。在人类健康和环境两个方面,地面臭氧是最危险的污染物之一。https://www.epa.gov/ground-level-ozone-pollution/ground-level-ozone-basics某些风险群体受到特别影响,臭氧会损害儿童的气道并加剧呼吸系统疾病,因为他们的肺部仍在发育中。敏感的植被和生态系统也会受到高空臭氧水平的影响,这可能会影响收成并减少自然资源。这种污染物在阳光充足的地区(如西班牙安达卢西亚)尤为普遍,在那里紫外线辐射会引发化学反应,将挥发性有机化合物(VOCs)和氮氧化物转化为臭氧。开发一个臭氧水平预测系统对于做出明智的决策至关重要,以了解当前水平的主要驱动因素、分析模型预测与实际水平的偏差以及数据中的漂移等。鉴于可用数据的庞大数量,机器学习为此提供了一个强大而有效的工具。
人工智能的进步在文本生成、图像分割、声音分类等相关任务中取得了显著成果(Jim等人,2024年;Ji等人,2024年)。在这一进展中,卷积神经网络(CNN)和Transformer等深度学习(DL)架构已成为主导范式。然而,在时间序列预测(TSF)领域,没有一种方法能够始终优于其他方法(Lara-Benítez等人,2021年)。在某些特定情况下,简单的线性模型可以表现得与复杂的非线性模型相当甚至更好。我们认为这种争论的出现是因为一些TSF问题中目标变量与大多数特征之间存在高度线性关系;而其他问题则可能包含更复杂的非线性关系(Torres等人,2021年)。
这些观察结果对于臭氧浓度预测等环境时间序列尤为重要,因为线性和非线性动态共存。臭氧预测方法已经从无法捕捉非线性的可解释统计模型(Zhou等人,2023年)发展到通过学习复杂时间模式来提高准确性的机器学习(Pan等人,2023年)和深度学习方法(Li等人,2024年;Méndez等人,2023年)。然而,这些深度模型往往像黑盒子一样,对无关输入敏感,并忽略了大气过程的强线性依赖性(Yafouz等人,2021年)。因此,当前的臭氧预测框架仍然难以在保持可解释性和鲁棒性的同时,联合建模线性和非线性关系。
为了解决这些挑战,本研究提出了残差选择网络(ResSelNet)1,这是一种混合方法,可以将数据集中的简单线性关系与复杂非线性关系结合起来。所提出的方法结合了残差连接和特征选择机制,使用时间选择层(TSL)(Jiménez-Navarro等人,2023年)动态确定每个变量的最佳处理深度,从而提高预测准确性、可解释性和泛化能力,同时减少无关特征的影响(Wu和Cheng,2021年;Büyükke?eci和Okur,2022年)。ResSelNet的详细方法论在第3节中介绍。
作为案例研究,ResSelNet被应用于西班牙安达卢西亚地区的地面臭氧预测,该地区受到高太阳辐射和复杂大气动态的显著影响。由于其多样的气象条件、强烈的季节性和空间变化性,这一地区提供了一个具有挑战性和代表性的测试平台。来自区域监测网络的可靠长期空气质量数据进一步支持了选择安达卢西亚作为合适案例研究的原因。
我们的贡献可以总结如下:
- 引入了一种结合残差连接和特征选择的新方法,用于深度学习中的时间序列预测。
- 在西班牙安达卢西亚的不同地区展示了模型在臭氧预测问题上的持续改进,证明了其鲁棒性。
- 通过分层方式揭示相关特征,提高了可解释性,有助于更好地理解预测过程。
本文分为以下部分。首先,第2节回顾了之前在特征选择和深度学习领域的一些工作。其次,第3节描述了本工作的主要贡献。第三节详细介绍了用于评估我们方法性能的实验工作流程。然后,第4节从不同角度报告了结果。最后,第6节包括所得结论和未来的工作方向。
相关研究
在过去几十年中,已经开发了许多臭氧预测方法。早期的研究主要依赖于统计模型,如多元线性回归(MLR)和自回归积分移动平均(ARIMA),这些模型提供了可解释的结果,但未能捕捉气象变量和污染物变量之间的非线性依赖关系(Zhou等人,2023年)。随后,包括支持向量回归(SVR)和随机森林(RF)在内的经典机器学习方法也被引入...
方法论
本节将本工作的主要贡献分为三个小节。首先,第3.1节确立了在解释方法论时使用的术语。其次,第3.2节提出了支持我们提案设计的三个主要假设。最后,第3.3节描述了所进行的设计和转换(见图1)。
实验设置
本节详细描述了设计的实验,并将其分为四个部分。首先,第4.1节详细介绍了评估的模型和选择标准。其次,第4.2节总结了实验中使用的数据的主要内容。第三节介绍了用于评估不同数据集的指标。第四节总结了硬件配置。最后,第4.4节总结了整个实验过程...
结果与讨论
收集到每次实验的结果后,会从更一般到更具体的方面进行分析。为了便于可视化,应用于不同基础架构的ResSelNet模型用星号表示。
第5.1节总结了每个数据集中最佳模型的结果。第5.2节包括了每年测试的最佳结果。第5.3节展示了每个模型选择的特征分布。
结论与未来工作
本文介绍了使用深度学习的残差选择网络(ResSelNet)这一新颖方法。ResSelNet结合了残差连接和特征选择,有效捕捉数据集中的线性和非线性关系,提高了模型的效率和可解释性。主要贡献包括引入ResSelNet、实施动态特征选择以及在各种数据集上的一致改进。本文概述了该方法论...
P. Reina-Jiménez:软件、方法论、研究、数据管理、概念化。
M.J. Jiménez-Navarro:软件、方法论、研究、数据管理、概念化。
G. Asencio-Cortés:写作——审稿与编辑、可视化、验证、监督。
F. Martínez-álvarez:写作——审稿与编辑、可视化、监督、资源管理、项目协调。
M. Martínez-Ballesteros:写作——审稿与编辑、初稿撰写、验证、监督、项目管理。
- 软件名称:ResSelNet
- 开发者:M. J. Jiménez-Navarro
- 首次可用日期:2024年12月12日
- 所需软件:在requirements.txt文件中提供
- 程序语言:Python
- 源代码链接:https://github.com/manjimnav/ResSelNet/
- 文档:应用程序安装、测试和部署的详细文档可在以下链接找到:
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
本研究得到了PID2023-146037OB-C21和PID2023-146037OB-C21项目的支持,这些项目由MICIU/AEI/10.13039/ 501100011033资助。作者感谢环境可持续性和气候变化总司(Dirección General de Sostenibilidad Ambiental y Cambio Climático,隶属于可持续发展、环境和蓝色经济部Consejería de Sostenibilidad, Medio Ambiente y Economía Azul)提供本研究使用的数据。活动代码:C23.I1.P03.S01.01 ANDALUCíA。该项目由“INVESTIGO计划”公共资助,资金来自...