基于文献的机器学习模型预测动物粪便病原体及抗生素抗性基因环境负荷:一种可解释性集成方法
【字体:
大
中
小
】
时间:2025年09月26日
来源:Microbial Risk Analysis 4
编辑推荐:
本研究通过集成机器学习算法(梯度提升R2=0.93;岭回归R2=0.84)构建可解释预测模型,首次实现动物粪便源病原体与抗生素抗性基因(ARG)环境扩散的同步评估,为可持续农业施肥策略提供量化决策支持。
本研究数据集系统性地从2015-2024年间发表的54篇同行评审文献中整理获得,共包含223个独立数据条目(观测值),这些数据均涉及动物粪便源的抗生素抗性基因(ARG)和病原体负荷的定量信息。
所选研究均需包含定量数据并明确报告与土壤应用相关的环境及微生物参数。总计223个数据条目经过多重验证流程确保准确性,涵盖的关键变量包括:施肥类型(牛、猪、家禽、绵羊粪便)、ARG类型(如tetA、sul1、intI1)、病原体种类(大肠杆菌E. coli、沙门氏菌Salmonella等)、施用量(吨/公顷)、施用后时间(天)、土壤理化性质(pH值、有机质含量)以及气候参数。
本研究对不同回归模型在病原体负荷估算中的性能进行了全面评估。表1展示了所应用模型基于R2、RMSE和MAE性能指标在训练集与测试集上的表现结果。在应用的算法中,梯度提升(Gradient Boosting)模型展现出最优预测性能,其在测试数据上获得R2=0.9317、RMSE=0.3501、MAE=0.2477的结果。这表明该模型能够解释93.17%的目标变量方差,且误差范围保持在较低水平。
对于ARG水平的预测,线性模型(特别是岭回归Ridge Regression)表现出更高的预测准确性。尽管线性模型通常无法捕捉非线性相互作用,但岭回归凭借其处理多重共线性的能力,在异质性数据集中能提供稳定且可推广的结果。该模型在测试集上达到R2=0.8402,RMSE=0.4913,MAE=0.3724的性能指标。
通过SHAP(SHapley Additive exPlanations)分析揭示了模型决策过程中的关键驱动变量:"施用时间"、"ARG类型"和"肥料类型"被识别为最具决定性的因素。此外,偏依赖图(Partial Dependence Plot, PDP)分析以符合生物学意义的方式可视化环境与操作因素对目标变量(ARG和病原体负荷)的边际效应,进一步增强了模型的可解释性。
本研究全面评估了机器学习算法在预测动物粪便源环境病原体负荷及抗生素抗性基因(ARG)水平中的有效性。在基于文献整理数据集所应用的不同回归模型中,集成算法(如梯度提升和XGBoost)对两个目标变量均显示出卓越性能。所获得的高R2值和低误差指标(MAE、RMSE)表明这些模型能够有效捕捉复杂的环境-微生物相互作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号