基于混合机器学习模型优化甲烷通量预测与关键特征识别
《iScience》:Optimizing methane flux prediction and key feature identification based on a novel hybrid machine learning model
【字体:
大
中
小
】
时间:2025年11月30日
来源:iScience 4.1
编辑推荐:
本研究针对自然景观甲烷(CH4)排放量化难题,创新性地构建了GWOPSO-XGB混合模型,实现了超参数优化与特征选择的同步进行。该模型仅需5个关键特征即可在多数湿地类型中超越全特征XGB模型,使RMSE降低1.1%-10.8%,并发现土壤温度(TS)是大多数站点类型的最重要预测变量,为不同站点类型的CH4精准预测提供了可靠方法。
随着全球气候变化问题日益严峻,甲烷(CH4)作为一种强效温室气体,其100年全球增温潜势是二氧化碳的28-34倍,已成为气候研究的焦点。自然景观的CH4排放约占全球总量的一半,然而准确量化这些排放面临两大挑战:传统观测方法成本高昂且覆盖范围有限;排放过程涉及复杂的多特征相互作用。这种量化难题严重制约了我们对全球碳循环的理解和气候模型的精度。
在过去的解决方案中,机器学习技术显示出了处理非线性关系的潜力。支持向量机(SVM)、人工神经网络(ANN)、随机森林(RF)和长短期记忆(LSTM)等算法已被应用于CH4排放预测和空间扩展分析。其中,极端梯度提升(XGBoost)算法因其更高的计算效率和更好的过拟合抑制能力而在多个领域获得广泛应用,但尚未有研究将其应用于不同站点类型的CH4预测。
特征选择是机器学习模型预测CH4排放的关键挑战。过多的特征可能通过增加模型复杂性导致过拟合,而特征不足则会因遗漏关键特征而影响预测准确性。传统方法如主成分分析(PCA)虽然能实现特征降维,但其线性组合特性使主成分失去生态可解释性,限制了机理分析。相比之下,基于树的模型能通过特征重要性排序和剪枝算法有效保留关键特征并消除冗余。
除了特征选择,模型的准确性和效率在很大程度上取决于超参数的设置。元启发式算法通过模拟自然界中的进化机制或群体智能行为,能够高效探索参数空间并快速找到最优参数组合,为复杂问题提供更灵活强大的优化能力。灰狼优化(GWO)和粒子群优化(PSO)等算法在解决特征选择的超参数优化问题上已显示出优势,但在CH4预测模型优化中的应用仍相对有限,特别是在同步进行特征选择和超参数优化的研究方面更为缺乏。
针对这些研究空白,顾新琴、姚丽等研究人员在《iScience》上发表了题为"基于新型混合机器学习模型优化甲烷通量预测和关键特征识别"的研究论文,系统评估了三种机器学习模型在预测CH4排放方面的性能,并创新性地构建了混合优化框架,为高精度CH4预测模型的开发提供了坚实的技术基础。
本研究采用了多种关键技术方法:从36个FLUXNET-CH4站点获取通量数据,结合MODI卫星数据提取归一化植被指数(NDVI);评估XGBoost(XGB)、随机森林(RF)和支持向量机(SVM)三种机器学习模型性能;应用SHAP方法进行特征重要性分析;开发GWOPSO混合算法同步优化特征选择和超参数;采用5折交叉验证和统计指标(RMSE、R2、MAE)进行模型验证。
全特征模型的统计性能表明,集成学习模型(XGB和RF)显著且一致地优于SVM模型(p<0.001)。XGB模型相比SVM实现了RMSE平均降低10.65 nmol m-2 s-1(95%CI:7.07-15.04 nmol m-2 s-1),相对改进28.9%;MAE降低9.18 nmol m-2 s-1(95%CI:5.97-12.78 nmol m-2 s-1),相对改进37.1%。不同站点类型存在显著性能差异,所有三种模型在排水湿地(Drained)和高地(Upland)类型中预测能力有限,R2值始终低于0.268,而XGB模型在沼泽(Marsh)中达到最高R2值0.803。
基于SHAP方法的XGB模型特征选择发现,地表温度(TS)、归一化植被指数(NDVI)、潜热通量(LE)和白天总初级生产力(GPP_DT)在大多数情况下被选中,是普遍性的关键特征。TS是六个站点类型中影响CH4排放的最关键特征,SHAP值范围从9.71 nmol m-2 s-1(沼泽)到45.36 nmol m-2 s-1(湿地)。与皮尔逊基于特征选择的XGB模型(P-XGB)相比,SHAP基于特征选择的XGB模型(S-XGB)在使用相同数量输入特征时实现了0.2%-22.7%更低的RMSE。
混合模型的性能表现显示,CGWOPSO-XGB4模型在所有站点类型中实现了最优性能。对于大多数站点类型,这种仅含5个特征的优化模型超越了包含16个特征的基线全特征XGB模型,使RMSE降低1.1%-10.8%。R2结果进一步证实,GWOPSO-XGB4模型的平均值最高,最大值达到0.803。
预测精度的分析揭示了不同CH4预测模型在全特征输入条件下的表现差异。低排放站点(排水湿地和高地)具有较高的平均归一化均方根误差(NRMSE),而高排放站点(沼泽)对应最低的平均NRMSE。这可能是因为高排放站点类型具有更稳定的产甲烷群落结构和规则的水文条件,使得关键驱动特征与CH4通量之间的响应关系更易被模型捕捉。
混合模型的优势在于其能够同步优化特征组合和XGB参数值,获得更优越的性能。与等效特征输入的P-XGB和S-XGB模型相比,提出的混合方法始终表现出更紧密的聚类分布和更优的斜率特性。这一创新框架不仅显著提高了CH4排放预测的准确性,还通过量化不同站点类型的特征重要性揭示了关键驱动特征。
输入特征的分析基于CGWOPSO-XGB4模型的SHAP平均值确定了前三名驱动特征,阐明了不同生态系统中对CH4排放预测的关键影响。TS在沼泽、排水湿地、芬诺、沼泽和湿地生态系统中作为核心特征,这与之前研究的发现一致,其主导地位可能归因于产甲烷菌代谢对土壤热条件的敏感性。白天获取的总初级生产力(GPP_DT)在沼泽、沼泽和高地生态系统中的显著贡献证实了植物光合产物通过根系分泌物供应产甲烷底物的关键生态过程。
值得注意的是,NDVI作为植被覆盖度量在六个站点类型中表现出显著重要性。这一观察结果证实了先前的研究,表明纳入像NDVI或叶面积指数这样的植被动态特征不仅能提高草地还能提高其他土地利用类型的CH4排放预测能力。这种改进可能源于植被动态调节CH4传输途径和提高预测准确性。
特别令人感兴趣的是特定特征在某些站点类型中的独特解释力。例如,净生态系统交换(NEE)在排水湿地中的强大预测能力揭示了水文调节的CH4生产机制变化。这种现象可能源于排水诱导的氧化还原电位变化,调节了产甲烷作用和CH4氧化之间的平衡,从而显著影响净排放。
该研究的结论部分强调了混合机器学习框架在CH4通量预测中的创新价值。通过将GWOPSO算法与XGB模型相结合,研究不仅实现了预测精度的显著提升,还识别了跨不同生态系统类型的关键驱动因素。土壤温度被确认为大多数站点类型中最重要的预测变量,而植被动态特征如NDVI和初级生产力指标也在CH4排放预测中发挥关键作用。
这一研究成果的重要意义在于为高精度CH4预测模型的开发提供了新的技术路径和方法论支持。通过同步优化特征选择和超参数配置,研究克服了传统机器学习在复杂环境问题应用中的局限性,为全球碳循环研究和气候变化预测提供了更可靠的工具。此外,研究揭示的关键环境驱动因素为理解CH4排放的生态机制提供了新见解,有助于指导湿地管理和气候变化减缓策略的制定。
总体而言,这项研究通过创新的算法融合和系统的模型比较,为解决自然景观CH4排放量化难题提供了有效方案,为推动精准温室气体监测和全球碳循环研究做出了重要贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号