基于自动超参数优化方法的黄河三角洲土壤有机碳高性能预测研究

【字体: 时间:2025年05月09日 来源:Computers and Electronics in Agriculture 7.7

编辑推荐:

  为解决模型超参数调整不足影响土壤有机碳(SOC)预测精度的问题,研究人员开展自动超参数优化(AHPO)算法优化模型预测 SOC 的研究。结果显示,数学近似算法优化的模型拟合能力强,TPE 优化的模型精度最高。该研究为 SOC 监测提供支持。

  在生态环境研究领域,土壤有机碳(Soil Organic Carbon,SOC)可是个 “大忙人”,它不仅掌控着土壤的 “健康密码”,反映土壤的空间结构、肥力状况,还在陆地碳氮循环系统里扮演着核心角色。想象一下,土壤就像一个巨大的 “碳仓库”,SOC 含量的变化影响着全球碳循环的 “天平”。增加 SOC,不仅能让土壤变得更加肥沃,提升农作物的产量,还能在应对气候变化这场 “硬仗” 中出一份力,缓解温室效应。
然而,要精准测量这个 “碳仓库” 里的 SOC 含量,可不是一件容易的事。目前预测 SOC 空间变异性的方法虽然不少,但都存在一些问题。传统的线性回归(Linear Regression,LR)模型,就像一个 “老实人”,只能简单地分析环境因素和 SOC 之间的平均影响关系,面对复杂的非线性关系时,就显得力不从心,预测精度大打折扣。而机器学习(Machine Learning,ML)和深度学习(Deep Learning,DL)模型,虽然能学习复杂多维环境因素的特征,把握其中的非线性模式,但它们也有自己的 “小脾气”:对复杂非线性数据的拟合性能不太好,还容易出现过拟合的情况,而且难以深入探究环境因素对 SOC 含量的影响。追根溯源,这些问题很大程度上是因为模型的超参数没有选对。超参数就像是模型的 “小助手”,它对模型的预测精度和性能有着重要影响,可传统的手动试错或经验调参方式,效率低还难以找到最优解。

为了攻克这些难题,来自国内的研究人员挺身而出,他们开展了一项极具意义的研究。研究人员针对黄河三角洲盐碱地的 SOC 空间变异性预测,构建了 16 个预测模型,将 4 种自动超参数优化(Automatic Hyperparameter Optimization,AHPO)算法与 4 种非线性模型相结合,试图找到提高 SOC 预测精度的 “金钥匙”。这项研究成果发表在《Computers and Electronics in Agriculture》上。

研究人员为开展这项研究,运用了多种关键技术方法。在数据收集方面,于 2022 年 9 月从黄河三角洲盐碱化农田随机采集了 148 个土壤样本 ,并对样本进行预处理。在模型构建与优化上,采用了自然启发算法(如灰色狼群优化(Grey Wolf Optimization,GWO)、猎人猎物优化(Hunter-Prey Optimization,HPO))和数学近似算法(如贝叶斯优化(Bayesian Optimization,BO)、树状 Parzen 估计器(Tree-structured Parzen Estimator,TPE))对梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、极端梯度提升(Extreme Gradient Boosting,XGB)、深度森林(Deep Forest,DF)、卷积神经网络(Convolutional Neural Network,CNN)等模型进行超参数优化。此外,还借助 SHapley 加性解释(SHapley Additive Interpretation,SHAP)、变差函数分解(Variogram Decomposition,VD)、层次划分(Hierarchical Partitioning,HP)和结构方程模型(Structural Equation Model,SEM)等方法,分析环境因素对 SOC 的影响。

下面来看看具体的研究结果:

  • 模型预测性能:经过数学近似算法优化的预测模型,如 BO-DF(R2 = 0.76)和 TPE-DF(R2 = 0.82),在环境因素和 SOC 之间展现出强大的非线性拟合能力。AHPO 算法显著提升了 DL 模型的预测性能,4 种优化方法让R2值从 0.72 提升到 0.82 。经过泛化验证,TPE 优化的模型表现出很强的稳健性,在 SOC 预测中达到了最高的精度(R2 > 0.7)。这表明,选对超参数优化算法,能让模型的预测能力 “更上一层楼”。
  • 超参数组合特点:AHPO 预测模型的超参数组合在相似性和独特性之间找到了平衡。那些对模型性能起关键决定作用的超参数有明显差异,这种差异让模型能够实现高性能的 SOC 预测。就好比一个团队里,每个成员都有独特的技能,相互配合才能发挥最大的力量。
  • SOC 空间分布:利用 TPE-DF 模型进行空间映射后发现,研究区域内 SOC 含量高的区域主要集中在南部和东北部。这为了解该地区土壤碳分布情况提供了直观的依据,有助于有针对性地进行土壤管理和碳循环研究。
  • 环境因素影响:当模型预测精度(R2)超过 0.75 时,SHAP 分析指出,SoilAN、SoilAP、SoilAK、TMP 和 PRE 是驱动 SOC 非线性变化的最主要环境因素。VD 和 HP 分析则强调了土壤和气候因素的协同线性贡献,它们解释了 SOC 变异性的 99.1%。进一步的路径分析还发现,区域气候变暖会导致表层土壤干燥和盐碱化,改变 SOC 分解环境,高盐胁迫对微生物和作物根系活动产生负面影响,最终却促进了表层土壤中 SOC 的积累。这一系列结果揭示了环境因素影响 SOC 的复杂机制。

综合来看,研究人员通过这项研究,成功验证了 AHPO 赋能的 ML 和 DL 方法在分析环境因素与 SOC 响应关系方面具有很强的可行性。这些方法为跨空间尺度的高性能、高精度 SOC 监测提供了有力支持,让我们在了解土壤碳循环、应对气候变化的道路上又前进了一大步。未来,有望基于这些研究成果,进一步优化 SOC 预测模型,为土壤资源管理、农业可持续发展和生态环境保护等领域提供更精准、有效的决策依据。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号