《Journal of Hydrology》:Soil hydraulic pedotransfer functions for estimating saturated hydraulic conductivity: a deep symbolic regression approach with mean shift clustering
编辑推荐:
土壤饱和水力传导率(Ks)的精准估算对水文模型至关重要。本文提出DSR-MS框架,通过均值漂移聚类将全球土壤数据划分为同质群体,再利用深度符号回归推导各群体Ks的显式解析式,在保证模型可解释性的同时实现高精度预测(CCC=0.695),较传统方法提升55.5%,且较随机森林模型误差仅高1.8%。该方法生成的数学表达式可直接嵌入过程模型,解决了机器学习黑箱与模型可解释性之间的矛盾,为地球系统模型参数化提供新范式。
张成|魏忠旺|尚冠伟|白帆|董文宗|肖启云|赵宏伟|刘平平|李清亮|戴永久
吉林大学计算机科学与技术学院,长春 130032,中国
摘要
土壤饱和水力传导率(Ks)是水文学和地表模型中的一个关键参数,但其准确估计仍然具有挑战性。土壤转移函数(PTFs)提供了一个实用的解决方案,但面临一个持续存在的三难问题:平衡预测准确性、可解释性和模型可集成性。传统的PTFs虽然可集成,但往往过于简化;而先进的机器学习模型虽然准确,但作为非解析的“黑箱”运行,这阻碍了它们被构建为可以直接嵌入基于过程的模型计算结构中的显式函数。为了弥合这一差距,我们提出了一种新颖的两步框架:深度符号回归结合均值漂移聚类(DSR-MS)。该方法首先根据内在属性将全局土壤数据集划分为同质簇,然后在每个簇内应用符号回归来推导出显式的、可解释的Ks数学公式。通过与全球数据库的评估,DSR-MS达到了0.695的一致性相关系数(CCC),显著优于传统的PTFs和基于中位数的集成基准(CCC = 0.448),同时接近于最先进的随机森林模型的准确性(CCC = 0.725)。重要的是,与机器学习模型不同,DSR-MS直接产生透明且可以直接集成的方程。应用于SoilGrids 2.0数据时,生成的显式函数生成了一个全局的、物理上合理的Ks地图,在与独立现场测量结果进行验证时,其一致性提高了25.9%。DSR-MS框架为解决准确性-可解释性-可集成性之间的权衡提供了一条有希望的途径,为地球系统模型中的土壤水力属性参数化提供了一个强大的下一代工具。
引言
土壤饱和水力传导率(Ks)是一个关键参数,决定了土壤的渗透性,并在各种水文和岩土工程过程中起着重要作用(Cui等人,2024年;Coquet等人,2005年;Zhu等人,2020年)。它是地表模型(LSMs)中的一个基本输入参数,控制着土壤水分运动、径流生成和陆地-大气相互作用(Coquet等人,2005年;Wang等人,2013年)。在实验室和现场环境中准确测量Ks既费力又耗时,且其结果通常具有尺度依赖性(Youngs,1991年)。为了解决这些挑战,开发了土壤转移函数(PTFs)来估计Ks,当直接测量不可行时提供了实用的替代方案。PTFs特别适用于大规模应用和快速评估。
在过去的几十年中,研究人员开发了各种PTFs来预测土壤水力特性。这些方法大致可以分为两类:经验方法和基于机器学习的模型。经验方法是传统的方法,依赖于Ks与易于测量的土壤属性(如质地、容重和有机质含量)之间的已知关系(Bonetti等人,2021年;Clapp和Hornberger,1978年;Dane和Puckett,1994年)。例如,Cosby等人(1984年)通过使用回归分析将饱和水力传导率与土壤质地联系起来,证明了基本的土壤测量可以作为Ks的可靠预测因子。Jabro(1992年)采用逐步回归方法开发了一个Ks预测模型,将容重与土壤质地结合起来,通过捕捉它们的综合影响显著提高了准确性。同样,Vereecken等人(1990年)也采用逐步回归方法,将有机碳和容重与质地结合起来,进一步提高了预测性能。这些直接的、基于回归的方法继续被成功应用,Mozaffari等人(2022年)使用逐步多元线性回归预测饱和水力传导率就是证明。这些直接的数据驱动方法仍然很受欢迎,因为它们使用易于获得的土壤测量数据提供了可用的Ks估计值。相比之下,机器学习模型利用先进的算法在大型数据集中识别复杂模式,从而提高预测准确性。例如人工神经网络(ANN)、支持向量机(SVM)和集成方法可以捕捉多个变量之间的非线性关系和相互作用。ANN模仿生物神经元的组织结构来捕捉复杂的非线性关系,并已被广泛用于预测土壤水力参数(Schaap等人,2001年)。SVM通过平衡模型复杂性和预测误差来扩展这一能力,使其特别适用于高维土壤数据集(Lamorski等人,2008年)。最近,Rosetta3框架结合了ANN架构和集成方法——使用分层建模和自助聚合来提高准确性并量化参数分布和不确定性(Zhang和Schaap,2017年)。基于ML的PTFs的快速发展和日益增加的复杂性已经得到了广泛研究,最近的分析强调了它们的预测能力和可解释性以及集成到基于过程的模型中的持续挑战(Weber等人,2024年)。
尽管取得了这些进展,但在PTFs的开发与其在基于过程的LSMs(如广泛使用的Common Land Model(CoLM)中的实际应用之间仍然存在显著的差距。这一差距源于三个理想属性之间的基本矛盾:预测准确性、可解释性和模型可集成性。首先,为了全局一致性和计算简便性,许多LSMs采用过于简化的参数化方法(例如,基于中位数估计Ks)。这些方案提供了可集成性和透明度,但由于过度简化而经常导致准确性受限。其次,虽然现代基于机器学习的PTFs在准确性方面表现出色并且可以诊断性地解释,但它们通常作为非解析的“黑箱”运行。这种缺乏显式函数形式严重限制了它们直接集成到LSMs中的能力,在LSMs中,透明的、可分析的方程对于过程诊断、敏感性分析和确保物理一致性至关重要。因此,迫切需要能够成功解决这一三难问题的估计框架——提供与先进ML相当的准确性,同时提供显式方程所具有的内在可解释性和易于集成的能力。这一需求与最近的PTF开发路线图一致,这些路线图明确要求采用新的方法来增强物理一致性、可解释性和模型可用性,而不仅仅是纯粹的预测性能(Webber等人,2024年)。在这方面,符号回归提供了一种独特的解决方案。与传统的近似映射的机器学习模型不同,符号回归自动发现描述输入变量和目标变量之间关系的数学表达式。这种范式不仅产生可解释的方程,还确保了它们的可集成性,因为输出本身就是一个紧凑的解析函数,可以直接实施,不像那些提供单独的非解析核心解释的模型。因此,它产生了本质上可解释的方程,提供了对潜在物理过程的直接洞察,同时保持了竞争性的准确性。符号回归旨在结合经验方程的透明性和机器学习的预测能力。最近的进展,如深度符号回归(DSR;Petersen等人,2021年),它使用强化学习改进了紧凑、稳健公式的搜索——使其成为开发全球适用且可解释的Ks PTFs的有希望的方法。
然而,基于回归的PTFs的预测性能受到强烈土壤异质性的根本挑战。因此,改进PTFs需要适当的区域化和放大策略,以更好地表示空间变异性,针对更同质的土壤-水文制度(Van Looy等人,2017年)。基于这一原则,我们提出了一个两步框架,将均值漂移聚类与深度符号回归(DSR-MS)结合起来,以解决空间变异性问题,同时平衡准确性、符号透明性和可集成性。在这个框架中,均值漂移聚类首先根据内在土壤特性将全局土壤数据集划分为内部同质的组(Comaniciu和Meer,2002年)。然后在每个簇内独立应用深度符号回归,以推导出特定于区域的Ks显式表达式。这种局部化策略使方程能够适应不同的土壤-水文制度,同时保留了符号表达式固有的数学透明性和模型准备性。通过提供准确、特定于簇的、易于集成的Ks公式,DSR-MS框架旨在减少模拟核心水文过程中的一个关键不确定性来源,从而加强地表建模后续诊断和基于过程的研究的基础。
本研究的主要目标是开发和评估DSR-MS框架,作为地表模型中Ks参数化的工具。我们旨在展示DSR-MS可以相对于当前模型中使用的简化参数化方案提高准确性,达到与现代机器学习基线相当的性能,并将预测表达为简洁、显式的方程,这些方程易于实施。这些方程在符号上是透明的,因为即使某些功能组件可能需要额外的水文解释,也可以检查其结构和主要预测因子。总体而言,这些目标不仅旨在推进土壤属性估计的方法论工具包,还为地表模型提供更可靠的参数化。这是减少模拟水文通量不确定性并增强它们所能提供的过程级理解的关键步骤。
数据来源和描述
我们的分析基于SoilKsatDB数据库(Gupta等人,2021年),该数据库汇编了来自全球1,910个站点的13,267个现场Ks测量值。除了Ks测量值外,该数据库还包括土壤质地、容重、土壤有机碳、田间持水量和萎蔫点。其地理覆盖范围包括北美洲(站点密度最高)、欧洲、亚洲、南美洲、非洲和澳大利亚。用于模型训练的关键土壤属性的基本统计信息如下
DSR-MS方法的PTFs
本节介绍了DSR-MS框架的核心输出:特定于簇的显式土壤转移函数。表3列出了为四个土壤簇推导出的最终符号方程。每个方程的独特形式归因于其相应簇的独特数据特征。表S1提供了均值漂移算法识别的簇中心的坐标,这些簇中心定义了每个组的核心属性。完整的描述性统计信息(例如,
结论
本研究介绍并验证了深度符号回归结合均值漂移聚类框架作为一种估计土壤Ks的新方法。我们的结果表明,DSR-MS提供了一种显式且可集成的替代方案,在这种权衡中取得了有利的折中。它首先通过聚类识别不同的土壤制度,然后推导出特定于簇的符号表达式。这种方法显著优于传统的统一参数化方法
CRediT作者贡献声明
张成:撰写——原始草稿,方法论。魏忠旺:撰写——审阅与编辑。尚冠伟:监督。白帆:监督。董文宗:监督。肖启云:可视化,概念化。赵宏伟:监督。刘平平:监督。李清亮:撰写——审阅与编辑,资金获取。戴永久:监督,资源。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本研究部分得到了广东省基础与应用基础研究重大项目(资助编号2021B0301030007)、国家自然科学基金(资助编号42575159、42275155、42375144、62206028)、教育部基础与跨学科学科突破计划(资助编号JYB2025XDXM902)的支持。从DSR-MS代码中派生的PTFs在https://github.com/2023ATAI/PTFs-DSR-MS/blob/main/main.py上公开可用