解决水文机器学习中的数据不平衡问题:先进采样方法对性能和可解释性的影响

《Water Resources Research》:Addressing Data Imbalance in Hydrological Machine Learning: Impact of Advanced Sampling Methods on Performance and Interpretability

【字体: 时间:2025年10月11日 来源:Water Resources Research 5

编辑推荐:

  数据不平衡是水文学机器学习中的主要挑战,影响模型性能和可解释性。本研究通过特征空间覆盖采样(FSCS)等先进采样方法,评估其对森林覆盖类型和饱和水力传导率(Ks)预测的影响。结果表明,FSCS显著提升了模型准确性和特征重要性评估,尤其在训练数据量较小的情况下(如1,000样本),其性能接近或优于更大数据集或更复杂模型(如LGB)。SHAP分析显示,FSCS增强了特征与目标变量关系的清晰度,并揭示了关键环境特征(如 elevation、clay content)的交互作用。研究证实先进采样方法能有效缓解数据不平衡,提升模型可靠性和可解释性,为水文学中的ML应用提供了新范式。

  数据不平衡在水文机器学习(ML)应用中是一个严重的问题,它限制了模型的性能和可解释性,同时解决方案也相对有限。本研究通过评估先进的采样方法,尤其是特征空间覆盖采样(FSCS)对预测森林覆盖类型和饱和导水率(Ks)的影响,探讨了这些方法在模型性能和可解释性方面的机制,并分析了其对模型可解释性的作用。研究使用了多种机器学习算法,包括随机森林(RF)和LightGBM(LGB),在不同训练集大小下进行测试,结果显示FSCS显著缓解了数据不平衡问题,提升了模型的准确性、特征重要性估计和可解释性。研究还分析了两个广泛使用的水文数据集:来自罗杰斯伍德国家森林的大型多类别森林覆盖类型数据集(110,393个样本)和来自USKSAT数据库的连续值土壤属性数据集(18,729个样本)。总共构建和优化了1,720个模型,结合了不同的采样方法、训练集大小和算法。平衡采样、条件拉丁超立方采样(CLHS)和FSCS始终优于简单的随机采样(SRS)。尽管使用较小的训练集和较简单的RF模型,FSCS训练的模型表现与使用较大数据集或更复杂的LGB模型相当甚至更优。SHAP分析揭示了FSCS在提升特征-目标关系清晰度方面的有效性,强调了特征间的相互作用并改善了模型的可解释性。这些发现突显了先进的采样方法在解决数据不平衡问题方面的潜力,不仅提高了模型的可靠性、准确性和可解释性,还为水文应用中的机器学习提供了更准确的先验信息。

在水文学、水资源和相关地球与环境科学领域,对水文特征的分析、估算、预测和相互作用一直受到关注。研究重点包括土壤属性、森林覆盖类型、气候变化和地表与地下水动态。准确的水文建模对于推进水文研究和做出明智的决策至关重要,尤其是在面对日益变化和极端的水文事件时。机器学习(ML)已成为分析水文系统及其与其他环境系统复杂非线性关系的核心工具。ML方法可以显著增强水文特征的预测能力,并有助于揭示其在地球和环境系统中的作用。ML已应用于地下水位动态模拟和估算、水质分析和灌溉响应研究,以及生成高分辨率的土壤湿度、土壤类型、蒸发和径流数据集。此外,ML研究还揭示了全球水文趋势,如蒸散发减少和地下水化学污染物威胁等。

尽管取得了这些进展,但基于ML的应用仍受限于数据不平衡问题。数据不平衡指的是水文数据集中某些特征和事件的不均衡表示,如罕见的极端洪水或干旱事件,这会导致预测偏差和模型泛化能力下降。此外,环境变量的异质性,如海拔、坡度、土壤结构和温度,使得模型训练和评估变得更加复杂。这些问题源于训练和测试子集在数据分布上的不均衡,导致模型在训练数据上表现良好,但在测试数据或不同数据集上表现不佳,最终可能导致对罕见现象的误估,如特殊地形类型的误分类、超低渗透率的高估、洪水风险的遗漏和地下水污染的低估。

数据不平衡并非绝对的数据不足,而是关键水文现象在数据集中的相对代表性不足。由数据不平衡引起的模型泛化能力差的问题不会随着训练数据集的增大而消失,但可能被模型学习主导模式所带来的性能提升所掩盖。因此,选择具有代表性的样本,基于广泛可用的环境协变量,如潜在蒸散发、降水量、地形和遥感数据集,对于构建准确的ML模型至关重要。这些协变量可以指导现场采样地点的选择,从而降低成本并最大化对目标变量如地下水位或土壤结构的直接观测可用性。识别具有代表性的样本有助于确保数据集的平衡,并最大化先验信息。类似的问题在土壤科学中也表明,利用可获取的协变量优化采样策略,以预测未采样区域的属性,具有重要意义。

先进的采样方法,如特征空间覆盖采样(FSCS),在小样本量情况下显示出优于简单随机采样(SRS)的性能。FSCS通过最小化采样点与聚类中心之间的距离,优化特征空间表示,确保输入协变量特征分布的全面覆盖。现有的研究主要在数据有限的情况下进行(样本量从几十到几百),通常比较有限的采样方法,而缺乏广泛的超参数优化。因此,研究的重点主要集中在小样本情况下的性能提升,而大型数据集中的复杂数据不平衡问题、其机制以及对模型可解释性的影响尚不明确。进一步研究需要阐明采样方法有效性的机制,以及采样方法对模型可解释性的影响——这是水文学中ML性能的关键决定因素。

为了填补这些空白并系统评估采样方法,我们设计了一个全面的计算实验框架,比较FSCS与其他先进采样方法(包括平衡采样和CLHS)在性能和可解释性方面的表现,使用SRS作为基准。所有训练子集均直接从原始数据集中选择,不生成合成样本,以确保数据分布的完整性。为了涵盖水文学ML模型中的常见问题类型,我们使用了两个不同的数据集:一个包含多种森林覆盖类型和连续值土壤导水率(Ks)的数据集。为了反映水文学科学中数据量的增加趋势,我们将研究范围扩展到训练集大小为1,000到20,000个样本。这一范围涵盖了日益增长的数据可用性,并允许我们考察数据不平衡问题在更大规模下的表现。每种采样方法在每个大小级别上应用20次,以确保统计可靠性。

我们选择了随机森林(RF)作为代表性简单模型,以及LightGBM(LGB)作为复杂算法,这两种算法在水文学应用中都表现出色。为了确保公平比较和优化模型性能,我们实施了超参数优化。除了性能,我们还评估了FSCS在增强模型性能方面的机制,特别是在协变量和目标变量分布上的影响。认识到模型可解释性在水文学研究中的重要性,我们使用SHapley Additive exPlanations(SHAP)分析来评估采样方法对模型可解释性的影响。这种方法提供了关于特征重要性和相互作用的见解,弥合了复杂ML模型与实际水文学决策之间的差距。

本研究的主要目标包括:(a)评估先进采样方法,特别是FSCS,在解决数据不平衡问题和提升森林覆盖类型和饱和导水率(Ks)预测方面的有效性;(b)分析FSCS生成的数据分布如何增强ML模型性能;以及(c)通过SHAP分析明确描述ML模型的可解释性,突出先进采样方法的作用。本文的其余部分组织如下:第2节描述了数据集,包括森林覆盖类型和饱和导水率,代表了水文学ML建模中的常见多类别和连续问题。它还涵盖了数据准备、采样方法的必要介绍、ML算法、超参数调优程序、性能指标、统计显著性评估和SHAP工具。

本研究提供了一个全面的实用框架,以推进机器学习在水文学中的应用,解决数据不平衡相关的问题。这是首次对先进采样方法进行大规模、机制驱动和可解释性导向的评估,对水文学和土壤科学研究具有直接意义。研究通过两种不同的数据集,即森林覆盖类型数据集和土壤导水率数据集,系统比较了不同采样方法对模型性能的影响。结果表明,FSCS在提升模型性能方面优于其他方法,特别是在处理数据不平衡时。

通过比较不同采样方法的性能,我们发现FSCS在所有样本量下都表现出显著的优势。特别是在处理小样本量时,FSCS能够有效捕捉低密度区域,从而减少数据不平衡的影响。此外,FSCS在特征空间覆盖方面表现出色,使得模型能够更好地学习和预测罕见类别。这不仅提升了模型的准确性,还增强了模型的可解释性。通过SHAP分析,我们发现FSCS在特征重要性估计和特征相互作用识别方面表现出色,使得模型决策过程更加透明。

在森林覆盖类型预测中,FSCS显著提高了模型的准确性、F1分数和ROC-AUC值。在Ks预测中,FSCS的性能提升更为显著,尤其是在较小的训练集大小下。例如,使用5,000个样本的RF + FSCS组合,Ks的中位R2值达到0.79,RMSLE值为0.47。相比之下,使用10,000个样本的LGB + SRS组合才能达到类似的性能(R2 = 0.83,RMSLE = 0.45)。此外,随着训练集大小的增加或使用更先进的模型,FSCS的优势变得更加明显。

为了验证这些发现,我们将结果与之前的一项研究(Ahmadisharaf等,2024)进行了比较。在之前的研究所使用的不同训练集大小下,XGBoost + SRS的R2和RMSLE值分别为0.87/0.89/0.72和0.77/0.72/0.69。相比之下,RF/LGB + FSCS在使用10,000个样本时,R2值约为0.86/0.95,RMSLE值为0.53/0.33。这表明FSCS能够显著提升简单模型的性能,使其达到甚至超过更先进的模型。此外,FSCS在提升模型可解释性方面也表现出色,通过强调关键特征的相互作用,使得模型决策过程更加清晰。

研究还分析了不同采样方法对特征影响的可解释性。通过SHAP工具,我们确定了对模型构建影响最大的特征、特征变化对预测的影响以及特征间的相互作用。对于分类变量,较高的SHAP值表明该特征更倾向于预测特定类别。对于连续变量,较高的SHAP值表明该特征对预测较高值有更强的影响。我们假设更好的模型性能会带来更准确的特征解释。在森林覆盖类型预测中,FSCS在提升模型性能的同时,也提高了特征重要性估计的准确性。而在Ks预测中,FSCS能够更有效地识别特征相互作用,从而增强模型的可解释性。

此外,研究还评估了FSCS的计算开销。通过使用k-means++算法实现FSCS,我们发现该方法在计算效率方面具有显著优势。在使用MATLAB进行k-means++的原生实现时,我们观察到其内存消耗和运行时间显著高于Python的scikit-learn和scikit-learn-intelex。然而,随着样本量和聚类数的增加,scikit-learn-intelex的效率优势更加明显。例如,在最大的测试配置(n = 100,000,k = 80,000)下,scikit-learn-intelex仅需约60秒即可完成聚类,而scikit-learn则需要约1,100秒。MATLAB则需要超过4,000秒。这表明,通过scikit-learn-intelex实现的FSCS方法在计算效率方面具有显著优势,使其更适合大规模应用。

研究还探讨了不同采样方法对模型性能的影响,特别是在数据不平衡情况下。通过分析特征分布和目标变量分布的变化,我们发现FSCS能够更有效地捕捉低密度区域,从而减少数据不平衡带来的影响。这种采样方法不仅提高了模型的预测能力,还增强了模型的可解释性。通过比较不同采样方法和模型组合的性能,我们发现FSCS在所有样本量下都表现出显著的优势,特别是在处理复杂模型时。

综上所述,本研究通过使用FSCS等先进采样方法,有效缓解了数据不平衡问题,显著提升了模型的性能和可解释性。这些方法不仅适用于森林覆盖类型和土壤导水率的预测,还为其他水文特征的建模提供了新的思路。未来的研究可以进一步探索这些方法在更复杂的水文学应用场景中的表现,如遥感降尺度和干旱风险评估。此外,研究还可以扩展到其他模型架构,如深度学习,以验证其在不同应用场景下的适用性。通过这些方法,我们可以更好地理解和预测水文系统的行为,从而提升水文学研究的可靠性和洞察力。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号