二氧化碳(CO
2)排放的持续增加是一个严重且持续的环境问题[1]。作为全球气候变化的主要贡献者,这些排放主要是由于人类活动造成的,包括化石燃料的燃烧、大规模的森林砍伐、快速的工业扩张以及交通运输业的增长[2]。这些排放不仅导致全球气温上升,还对生态系统、经济和公共卫生产生了广泛的影响[3]。二氧化碳水平上升的影响远远超出了大气的变化[4]。它们推动了全球变暖,加速了极地冰层的融化,增加了海平面的上升,并加剧了天气事件的强度和频率[5]。这些干扰也对世界各地的生态系统产生了严重影响[6]。因此,粮食安全、人类健康、经济稳定性和水资源可用性都面临风险。鉴于这些广泛的后果,准确预测和管理CO
2排放已成为科学家、政策制定者和致力于保护地球未来的环保组织的重要任务[7]。考虑到这些挑战,准确预测CO
2排放对于制定政策决策、制定环境战略和推进可持续发展目标变得越来越重要[8]。近年来,人工智能(AI)、机器学习(ML)和优化技术的重大进展改变了包括环境科学在内的各个领域的预测建模格局[9]。这些技术提供了强大的工具,可以通过识别隐藏的模式并高精度地预测未来趋势来分析复杂的数据集[10]。传统的统计方法往往难以捕捉复杂的非线性模式并有效管理高维数据集。因此,混合学习和集成学习模型因其能够整合多种算法的优势而受到越来越多的关注,从而提高了预测准确性和模型的泛化能力[11],[12]。尽管基于ML的CO
2排放预测模型取得了显著进展,但在处理高维特征空间、优化模型参数和捕捉各种影响因素之间的非线性依赖关系方面仍存在挑战[13],[14]。大多数传统模型难以在预测准确性和计算效率之间取得平衡。特征选择和超参数优化在模型性能中起着关键作用,但它们经常被忽视或处理不当[15]。因此,需要一个强大且适应性强的预测框架,能够智能地提取相关特征、微调模型参数,并有效捕捉CO
2排放的潜在动态[16]。为了解决这些限制,本研究提出了一种名为深度神经网络与极端梯度提升(DNN-XGBoost)的新混合框架,用于CO
2排放预测。所提出的模型结合了DNN的特征学习能力和XGBoost的预测能力。DNN非常适合从原始输入数据中自动学习复杂的表示,特别是在处理大型和非线性数据集时。另一方面,XGBoost是一种高效且可扩展的梯度提升技术,在结构化数据预测任务中表现出色。所提出的DNN-XGBoost框架的新颖之处不仅在于其混合架构,还在于使用了两种受自然启发的优化算法:二进制鲸鱼优化(BWO)用于特征选择和灰狼优化(GWO)用于超参数调整。这些算法分别模仿了鲸鱼和灰狼的社会行为和狩猎策略,并因其全局搜索能力和快速收敛而广受认可。通过在建模过程中整合BWO和GWO,该框架有效减少了特征冗余,提高了模型的可解释性,并增强了预测性能。本研究的主要贡献可以总结如下:
•开发了一种混合DNN-XGBoost框架,用于预测CO2排放,有效结合了深度神经网络(DNN)在捕捉复杂模式方面的优势和极端梯度提升(XGBoost)在处理结构化数据和减少过拟合方面的优势。
•数据预处理包括应用Z分数标准化来规范特征尺度,确保特征贡献均衡并促进模型更快收敛。
•数据集被划分为三个不同的子集:70%用于训练,15%用于验证,15%用于测试,以确保模型评估的稳健性并防止过拟合。
•采用二进制鲸鱼优化(BWO)进行有效的特征选择,旨在降低数据维度同时保持高预测准确性。为了评估其性能,将BWO与其他二进制优化技术(包括二进制粒子群优化(BPSO)、二进制遗传算法(BGA)和二进制萤火虫算法(BFA)进行了比较。在这些算法中,BWO在平均误差、平均适应度、最佳适应度和最差适应度等关键性能指标上表现最佳。
•利用灰狼优化(GWO)对所提出的DNN-XGBoost模型和其他基本机器学习回归模型(包括梯度提升(GB)回归器、随机森林(RF)回归器、决策树(DT)回归器、支持向量(SV)回归器和K-最近邻(KNN)回归器)进行超参数调整。GWO-DNN-XGBoost在所有模型中表现最佳。
•为了确保GWO-DNN-XGBoost模型的性能,还使用其他优化算法对其进行了优化,即均值方差优化(MVO)、猎鹰优化算法(FOA)和广度优先搜索(BFS)。GWO-DNN-XGBoost取得了最佳结果,优于MVO-DNN-XGBoost、FOA-DNN-XGBoost和BFS-DNN-XGBoost。
•评估指标包括均方误差(MSE)、平均绝对误差(MAE)、中位数绝对误差(MedAE)、平均绝对百分比误差(MAPE)和决定系数(R2)。
•GWO-DNN-XGBoost模型取得了最佳性能,MSE为0.0095,MAPE为0.0114,MedAE为0.0670,R2得分为99.28%,计算时间为3.264秒。
•统计分析(包括方差分析和配对t检验)表明,所提出的GWO-DNN-XGBoost模型显著优于其他模型。方差分析结果显示F统计量很高(8.90),p值非常低(< 0.0001),表明模型性能之间存在显著差异。将GWO-DNN-XGBoost与GWO-KNN进行比较的配对t检验的p值低于0.0001,提供了该模型预测准确性更优的强有力证据。
•使用Shapley加性解释(SHAP)来解释模型的预测结果。燃料消耗(组合、城市和高速公路)被认为是最具影响力的因素,当其值较高时,CO2预测值显著增加。发动机排量也有正面贡献,而气缸数量的影响较小但一致。这一可解释的见解阐明了模型的决策过程,并为实际干预提供了信息。
本文的其余部分组织如下:第2节介绍了相关文献。第3节详细描述了所提出的方法。第4节展示了实验结果并进行了全面讨论。第5节总结了研究并提出了未来研究的潜在方向。