利用基于微生物特征的ANN-XGBoost模型集成技术,通过可信度驱动的方法识别地表水中农田径流的来源
《Water Research》:Credibility-driven identification of cropland runoff source in surface waters using ANN-XGBoost model ensemble powered by microbial fingerprints
【字体:
大
中
小
】
时间:2025年10月01日
来源:Water Research 12.4
编辑推荐:
农田径流污染源识别中微生物指纹结合机器学习模型的研究,筛选出 Desulfuromonadaceae、Geobacter、AKAU3564 sediment group、Dehalococcoidales 和 Citrifermentans 五种厌氧微生物作为特异性指纹,通过ANN和XGBoost模型优化及组合,实现高精度(0.84±0.03)和不确定性分层评估。
在当前全球范围内,农业活动对水资源造成的污染问题日益严重,尤其是高污染负荷的农田径流,其对地表水质量的威胁不容忽视。农田作为最主要的陆地利用形式,占据了约40%的陆地面积,而其过度使用化肥和农药等化学物质,导致大量营养物、抗生素、农药和重金属进入水体,严重威胁生态环境和人类健康。在中国,作为全球最大的农业生产国之一,农田面积和产量均占据重要地位,其高投入高产出的模式进一步加剧了农业非点源污染的强度。统计数据显示,自1978年至2017年间,农田径流中化学需氧量(CODcr)、总氮(TN)和总磷(TP)的排放量分别增加了91.0%、196.2%和244.1%。因此,如何有效管理农田径流污染,防止其对地表水的持续影响,成为亟需解决的重要课题。
传统上,污染源识别主要依赖于特定污染物的指纹技术,例如稳定同位素(如δ1?N-NO??、δ1?O-NO??、δ11B和??Sr/??Sr)、水化学指标(如Cl?、Br?和I?)以及特定化合物(如农药和抗生素)等。这些方法虽然在识别特定污染物来源方面具有一定的价值,但其局限性在于,它们只能追踪与特定污染物相关的信号,无法全面识别污染源,特别是在目标污染物缺失或被掩盖的情况下。例如,当污染物的浓度低于检测限或受到其他因素干扰时,传统方法往往难以提供准确的污染源信息。因此,迫切需要一种能够直接识别农田径流来源的新方法,不受特定污染物种类的限制。
近年来,微生物指纹技术因其在识别粪便污染源方面的成功应用,被看作一种有前景的替代方案。微生物指纹技术通过分析水体中微生物群落的组成特征,可以识别不同来源的污染。例如,人类和不同动物的粪便污染源往往具有独特的微生物标记,如厚壁菌门(Bacteroidetes)标记、病毒指示物和线粒体DNA等。这些微生物标记在污染源识别中表现出较高的特异性,能够有效区分不同类型的污染。然而,农田径流与粪便污染存在显著差异,其微生物群落受到农业管理实践(如密集耕作、肥料施用模式、作物类型等)的强烈影响,这些因素对土壤微生物群落的结构和功能潜力产生深远影响。因此,与粪便污染不同,农田径流的微生物指纹可能与特定的农业活动模式相关,而非单一的生物来源。
在这一背景下,本研究提出了一种结合微生物指纹分析和机器学习的综合方法,用于精准识别农田径流污染源。该方法突破了传统指纹技术的局限,能够更全面地捕捉污染源的特征。通过高通量测序技术,我们对386个样本(包括水产养殖废水、生活污水、农田径流和果园径流)进行了分析,从中筛选出五种专性厌氧菌作为农田径流的微生物指纹标记。这些标记在识别农田径流污染源时表现出较高的敏感性和特异性,分别为0.50-0.62和0.81-1.00。这意味着,通过检测这些微生物的种类和丰度,可以较为准确地判断水体是否受到农田径流的污染。
为了进一步提高识别的准确性,我们采用机器学习方法对微生物指纹数据进行建模和优化。在模拟的“汇”数据集中,我们评估了七种不同的机器学习算法,包括随机森林、支持向量机、人工神经网络(ANN)和极端梯度提升(XGBoost)等。结果表明,ANN和XGBoost模型在指纹存在和相对丰度数据上表现出最佳的预测性能,准确率分别为0.8133 ± 0.0006和0.8261 ± 0.0029。进一步地,我们将ANN和XGBoost模型进行集成,采用逻辑规则“或”来组合模型输出,最终构建了一个综合模型,其准确率达到0.8400 ± 0.0292。这一准确率相比传统指纹检测方法提高了14.69%,同时优于单独使用任意一种分类器的性能(2.05%-3.36%)。这表明,机器学习不仅能够提升模型的预测能力,还能够通过集成不同算法的优势,提高整体的识别效果。
然而,污染源识别不仅仅关乎准确率,还涉及预测结果的可信度评估。在复杂的环境条件下,模型的预测结果可能会受到多种因素的影响,例如样本的代表性不足、环境干扰等因素。因此,如何量化模型预测的不确定性,是提升污染源识别实用性的关键。本研究提出了一种基于置信区间和覆盖属性的分层不确定性评估体系,将预测结果划分为五个可信度等级(VHC/HC/MC/LC/NC),分别对应80%、90%、95%和99%的置信水平。这种分层评估方法能够为不同等级的预测结果提供明确的解释,从而帮助决策者更准确地判断污染源的可信度。
本研究的创新之处在于,不仅筛选出了具有代表性的微生物指纹标记,还通过机器学习方法构建了一个能够处理复杂环境数据的模型框架。该框架能够有效区分农田径流与其他类型的污染源(如水产养殖废水、生活污水和果园径流),并提供具有可解释性的置信度评估。此外,我们还引入了特征重要性分析,以量化每种微生物指纹对模型预测的贡献程度。这一方法有助于识别哪些微生物种类在污染源识别中最为关键,从而为后续的污染防控措施提供科学依据。
为了确保研究结果的广泛适用性,我们选择在中国三个沿海省份(山东、浙江和广东)进行采样,分别代表不同的地理和气候条件。采样时间覆盖了湿季(2022年8月)和干季(2023年5月),以反映不同季节对微生物群落的影响。这些地区的农业活动高度发达,尤其以水产养殖和农田种植为主,因此具有较高的污染风险。通过在这些典型区域的采样,我们能够更全面地了解农田径流的微生物特征,以及这些特征在不同环境条件下的变化趋势。
微生物群落的组成分析显示,农田径流中的微生物种类和丰度与其他类型的污染源存在显著差异。例如,专性厌氧菌在农田径流中表现出更高的丰度,这可能与其在厌氧环境下的适应性有关。此外,我们还发现,不同农业管理实践对微生物群落的形成具有重要影响。例如,密集耕作和高剂量施肥可能促进某些微生物的增殖,而不同的作物类型则可能影响微生物的分布和多样性。这些发现进一步支持了农田径流微生物指纹的可识别性,并为后续的污染源识别提供了理论依据。
本研究的另一个重要贡献在于,它提供了一种系统化的不确定性分析方法,使污染源识别结果更加可靠。传统的指纹识别方法往往忽略了模型预测中的不确定性,导致在实际应用中难以评估结果的可信度。通过引入置信区间和覆盖属性,我们能够将预测结果分为不同的可信度等级,从而为决策者提供更全面的信息。例如,在高可信度等级(如VHC和HC)下,预测结果具有较高的确定性,可以作为主要的判断依据;而在低可信度等级(如LC和NC)下,预测结果可能存在较大的误差,需要结合其他信息进行综合判断。
此外,本研究还强调了微生物指纹数据在污染源识别中的独特优势。与传统的物理化学指标相比,微生物数据能够提供更丰富的生态信息,从而更全面地反映污染源的特征。例如,某些微生物种类可能与特定的农业活动密切相关,而这些活动可能无法通过传统的水化学指标进行识别。因此,结合微生物指纹数据和机器学习方法,不仅能够提高污染源识别的准确性,还能够揭示污染源与生态环境之间的复杂关系。
本研究的成果具有重要的实际应用价值。首先,它为农田径流污染源的识别提供了一种新的技术手段,能够更精准地定位污染来源,从而为污染治理提供科学依据。其次,该方法不受特定污染物种类的限制,适用于多种类型的水体,包括河流、湖泊和沿海水域等。这对于那些污染物种类复杂或目标污染物缺失的水体尤为重要。最后,通过引入不确定性分析,该方法能够为污染源识别提供更可靠的预测结果,有助于提高环境管理的科学性和决策的合理性。
在数据支持方面,本研究的原始测序数据和模拟的“汇”样本数据已被存入国家生物信息数据库(Sequence Read Archive),以便公众访问和进一步研究。此外,用于构建和优化机器学习模型的代码也已公开在GitHub平台上,这有助于其他研究者复现和改进本研究的方法。通过数据的开放共享,我们希望能够推动微生物指纹技术和机器学习方法在污染源识别领域的进一步发展和应用。
总之,本研究通过结合微生物指纹分析和机器学习方法,构建了一个高效且可靠的农田径流污染源识别框架。该框架不仅能够提高污染源识别的准确性,还能够提供具有可解释性的置信度评估,从而增强其在实际环境管理中的应用价值。随着环境问题的日益复杂,微生物指纹技术与机器学习的结合将为污染源识别提供新的思路和工具,有助于实现更精准的环境监测和更有效的污染治理。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号