基于生物炭的缓释肥料中养分淋失风险的Shap解释性预测
《Science in One Health》:Shap-interpretable prediction of nutrient leaching risks in biochar-based slow-release fertilizers
【字体:
大
中
小
】
时间:2025年10月01日
来源:Science in One Health CS3.7
编辑推荐:
本研究基于文献数据构建机器学习模型预测生物炭基缓释肥料(BSRFs)的养分淋失率,通过超参数优化(TPE算法)和特征重要性分析(SHAP、ICE),筛选出最优LightGBM模型(RMSE=2.2889,R2=0.9946)。关键驱动因素为肥料元素含量(E-M)和淋失体积(V),且模型表现出低异质性。最终开发了离线/在线GUI工具,为BSRFs设计及土壤养分管理提供数据支持。
### 一种基于生物炭的缓释肥料的机器学习预测模型研究
随着全球人口的持续增长,农业面临着前所未有的压力。预计到2050年,全球人口将达到97亿,这将对粮食安全构成巨大挑战。与此同时,土壤退化问题日益严重,威胁着约30%的土地生产力。因此,优化肥料使用成为提高作物产量的关键。然而,传统肥料由于高溶解性和低稳定性,导致营养元素的流失,这不仅降低了农业效率,还对环境造成了破坏。为应对这些问题,缓释肥料(Slow-Release Fertilizers, SRFs)被广泛研究,其目标是使营养元素的释放与作物吸收过程同步,从而在提高生产力的同时减少对环境的影响。
生物炭是一种通过热化学转化过程(如热解、气化和水热碳化)制备的碳质多孔材料。它具有高比表面积、分层孔结构、石墨化域和丰富的表面功能基团等独特结构特性,使其成为一种有效的营养载体。基于生物炭的缓释肥料(Biochar-based Slow-Release Fertilizers, BSRFs)在土壤中展现出显著的缓释优势,能够改善土壤结构、增加土壤有机质含量,并提升营养元素的利用效率,从而提高作物产量和品质。例如,通过共热解三料磷酸盐与藻类和山核桃壳制备的两种BSRFs,在动力学实验中表现出显著的缓释潜力。在240小时的测试中,基于藻类的BSRFs仅释放了总磷的3.14%,而基于山核桃壳的BSRFs释放了5.14%。此外,通过将云母和壳聚糖聚合物接枝到生物炭上制备的BSRFs在土壤淋洗系统中也表现出优异的缓释能力。在30天的土壤培养实验中,这些BSRFs释放了75.53%的NH??-N、65.66%的磷和71.83%的钾。
然而,BSRFs的营养释放特性评估仍然面临挑战。传统的评估方法如土壤柱淋洗实验虽然能够模拟实际田间条件,但存在资源消耗大、实验结果可比性差等问题。因此,有必要建立标准化的评估流程,以提高实验结果的可比性,并促进BSRFs作为可持续肥料替代品的应用。机器学习(Machine Learning, ML)作为一种强大的工具,能够克服传统实验方法的局限性,提供更高的可解释性和可扩展性,同时减少时间和材料资源的消耗。在之前的研究中,ML已被用于分析土壤中的污染物和抗生素暴露风险,显示出其在复杂线性和非线性关系处理方面的强大能力。
本研究的目的是创建一个基于现有文献的综合数据集,并开发ML模型以预测BSRFs的营养淋洗率。为了优化预测算法和识别关键控制因素,采用了基于树的模型,并结合个体条件期望(Individual Conditional Expectation, ICE)和SHapley Additive exPlanation(SHAP)方法进行模型解释。为了评估所提出模型的性能,使用了均方根误差(Root Mean Square Error, RMSE)和决定系数(Determination Coefficient, R2)等统计指标。研究结果表明,经过优化的LightGBM模型在预测性能上表现最佳,其RMSE为2.2889,R2为0.9946。关键的超参数包括学习率(0.63)和最小叶子样本数(0.30)。营养淋洗率的预测主要受到BSRFs的元素含量(E-M)和淋洗体积(V)的影响,较低的模型异质性表明预测的稳定性。高元素含量与高淋洗体积协同作用,增加了淋洗风险,而增强的比表面积则有助于营养元素的保留。
为了提高模型的可访问性,本研究开发了离线和在线图形用户界面(Graphical User Interface, GUI)。离线应用基于Tkinter和Auto-py-to-exe框架,允许用户在本地计算机上直接与模型交互,确保快速响应和离线使用。同时,利用Streamlit框架开发了网络版的模型应用,使用户无需设置本地环境即可通过浏览器访问模型。这些双平台的部署策略有效弥补了模型开发与实际应用之间的差距,确保了模型的广泛可访问性和实际应用价值。
### 数据收集与预处理
本研究的数据收集过程基于Web of Science Core Collection数据库,采用关键词组合和语义变体构建搜索字符串,以确保涵盖所有相关研究。最终筛选出10篇符合要求的文献,涵盖了2018年至2024年间在中国东部地区进行的研究。数据集包含665个样本,涉及12个独立变量和一个依赖变量。独立变量包括原料类别(RMC)、温度(T)、时间(t)、肥料制备方法(FPM)、肥料pH值(ph-M)、材料营养元素含量(E-M)、材料比表面积(BET)、土壤pH值(ph-S)、土壤阳离子交换容量(CEC)、土壤有机碳(TOC)、土壤营养元素含量(E-S)和淋洗体积(V)。依赖变量为营养元素淋洗率(LR,%)。
为了确保数据集的可靠性,进行了严格的数据清洗,包括缺失值插补和单位标准化。对于数据缺失率较高的特征,采用直接删除策略以提高模型的泛化能力。此外,为了防止数据泄露,所有预处理操作均被封装在ML流水线中,确保在模型构建过程中数据的统一转换。标准分数(z-score)用于调整和重缩放特征值,防止因特征量级差异导致模型结果偏差。对于分类变量,采用one-hot编码方法,以避免引入虚假的顺序关系。这些预处理步骤为后续的模型训练和解释奠定了坚实的基础。
### 模型开发与优化
在模型选择方面,本研究采用了六种不同的模型,包括基于树的模型和Dummy估计器(DR)。DR作为基准模型,采用均值预测策略,用于提供参考值,但缺乏学习能力,主要评估其他模型的相对性能。基于树的模型则通过递归特征分割捕捉复杂的非线性关系。随机森林(Random Forest, RF)利用Bagging集成策略,通过Bootstrap抽样和随机子空间选择生成多个决策树,最终通过均值投票进行预测,有效减少过拟合风险。eXtreme Gradient Boosting(XGBoost)通过引入二阶导数进行更精确的梯度更新,同时在目标函数中集成正则化项以控制模型复杂度和防止过拟合。Categorical Boosting(CatBoost)利用有序提升方法,通过样本排列训练模型,有效缓解梯度偏差和预测偏移。Gradient Boosting Regression Tree(GBRT)通过序列构建回归树,逐步最小化预测误差,通过调整学习率和子采样率在偏差和方差之间取得平衡。Light Gradient Boosting Machine(LightGBM)则采用基于直方图的方法,高效地将连续特征离散化为区间,减少计算和内存需求。它采用叶优先扩展技术,优先分割最有潜力的节点,提高预测精度和训练速度。该框架还结合了Exclusive Feature Bundling和Gradient-based One-Side Sampling等高级优化方法,以最大化操作效率和预测性能。
为了优化模型性能,采用了基于树结构的Parzen Estimator(TPE)算法进行超参数调优。TPE算法通过构建两个概率分布,分别表示成功参数设置和表现不佳的参数区域,利用这两个分布之间的似然比来优先采样高影响区域。TPE算法在高维超参数搜索空间中表现出优越的性能,并且收敛速度比传统的优化方法如网格搜索、随机搜索和元启发式算法更快。此外,TPE算法在训练计算成本高的模型时表现出高效性,特别是对于基于树的模型。优化过程采用了Optuna库,通过两阶段策略进行:前10次实验采用随机采样以建立基线数据,之后采用TPE算法进行更精细的参数调整。最终,经过超过100次优化实验,RMSE在K-CV验证中达到最小值。
### 模型解释与分析
为了提高模型的可解释性,采用了SHAP工具对优化后的LightGBM模型进行分析。SHAP是一种基于博弈论的解释框架,用于量化黑盒ML模型中特征对个体预测的贡献。通过计算所有可能特征子集的边际贡献,SHAP将模型预测与基线值(通常为数据集均值)之间的偏差分解为可加的特征贡献,从而实现对复杂决策路径的精确解释。结果表明,特征E-M(12.48)和V(8.52)对模型预测贡献最大,其次是ph-S(3.36)和E-S(3.11)。这些特征在预测机制中起主导作用,为模型逻辑解释和特征工程优化提供了定量证据。相比之下,BET(2.82)、TOC(2.80)和CEC(1.04)的贡献较小。值得注意的是,其余特征的SHAP值低于1.0,表明它们对模型预测的个体影响较小,但其整体贡献可能超过某些单一特征。
此外,通过ICE图分析了输入特征对预测输出的影响。这些图展示了每个样本在特定输入特征变化下的预测变化,从而揭示了预测与特征之间的依赖关系。例如,BSRFs的原料来源(RMC)对LR的依赖表现出明显的异质性,反映了BSRFs从农业废弃物中提取的多样性。对于温度(T)高于400°C的情况,LR的依赖呈现出上升趋势,且个体效应的异质性较低。相反,对于原料营养元素含量(E-M)和淋洗体积(V)的影响,表现出显著的非线性机制。当E-M值超过100 g/kg时,其对LR的依赖性增加,但在150 g/kg以上时会出现短暂下降,随后再次上升。同样,E-S对LR的依赖性在超过25 g/kg后显著增强,且在50 g/kg以上时表现出明显的个体差异。BET对LR的影响在低于250 m2/g的区域表现出下降趋势,且个体效应较为一致。TOC和CEC的影响较小,但在某些临界值(如TOC超过14 g/kg)后,其对预测的贡献会减弱。V对LR的影响则表现出明显的非线性,其负贡献在低于1000 mL时迅速下降,随后转变为正贡献并逐渐稳定。这些结果表明,大多数单个特征对模型输出的个体影响较小,但整体上具有较低的异质性,表明模型具有较高的稳定性和可靠性。
### 图形用户界面设计
为了提高模型的可访问性和实用性,本研究开发了离线和在线的图形用户界面(GUI)。离线应用可以通过链接下载并运行,用户可以在本地计算机上直接与模型交互,确保快速响应和离线使用。在线应用则通过Streamlit框架部署,用户可以通过浏览器访问模型,无需本地环境配置。这些双平台的部署策略有效弥补了模型开发与实际应用之间的差距,确保了模型的广泛可访问性和实际应用价值。
离线应用的界面分为两个主要模块:预测和评估。用户可以在顶部面板的指定字段中输入特征,并通过相应的按钮获取结果。在线应用包括左侧边栏的输入面板和主页面的结果展示区。用户输入所需数据后,点击“预测”按钮即可查看结果。此外,该界面还包含一个模型解释模块,其中包含交互式的SHAP决策图,以增强模型的可解释性并提供更深入的预测见解。
### 结论
本研究开发了基于机器学习的模型,用于预测BSRFs在土壤淋洗系统中的营养淋洗率。包括随机森林(RF)、XGBoost、CatBoost、GBRT和LightGBM在内的五种基于树的模型均表现出较强的预测能力。最终,LightGBM模型因其卓越的学习效率被选为最优模型。经过超参数优化后,其性能进一步提升,RMSE达到2.2889,R2为0.9946。学习率(0.63)和最小叶子样本数(0.30)被确定为最关键的影响因素,而正则化系数的累积影响较小(<0.02)。ICE图显示,LR对V和E-M的依赖性最强,且模型整体异质性较低,表明预测的稳定性。特征分析表明,E-M(12.48)和V(8.52)是主要的预测驱动因素。E-M和V之间存在显著的协同作用,影响营养淋洗率。更高的BET值有助于营养元素的保留,而其他特征则具有较小但不可忽视的影响。模型成功部署在离线和在线应用中,为BSRFs的评估提供了高效的展示和管理工具。本研究为BSRFs的营养淋洗率预测提供了有价值的评估方法,有助于推进BSRFs的设计和土壤营养管理的实践应用。未来的研究应聚焦于持续的BSRFs设计,以生成更全面的数据,并推动标准化的开发流程,建立统一的预测模型。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号