基于AHP-KDE多环采样策略的滑坡易发性预测负样本优化选择方法
《Ecological Indicators》:Negative sample selection for landslide susceptibility prediction: a hybrid optimization approach using an AHP-KDE multi-ring sampling strategy
【字体:
大
中
小
】
时间:2025年10月21日
来源:Ecological Indicators 7.4
编辑推荐:
本研究针对滑坡易发性预测(LSP)中负样本选择的不确定性问题,提出了一种融合层次分析法(AHP)与核密度估计(KDE)的多环采样优化框架。通过构建梯度缓冲区量化采样区间重要性,结合KDE降低正负样本地理相似性,在浙江临安区案例中验证了该方法能显著提升RF/LR/LightGBM/MLP等模型的AUC指标(提升0.069),有效克服传统缓冲区控制采样(BCS)的空间局限性,为地质灾害风险评估提供新范式。
每当暴雨来袭,山区常会发生滑坡灾害,给人民生命财产安全带来严重威胁。准确预测哪些区域容易发生滑坡,是地质灾害防治的重要课题。在滑坡易发性预测(Landslide Susceptibility Prediction, LSP)中,我们通常将已发生滑坡的区域标记为"正样本",而未发生滑坡的区域则作为"负样本"用于模型训练。然而,如何科学选择这些负样本,一直是困扰研究人员的难题。
传统方法多采用缓冲区控制采样(Buffer-Controlled Sampling, BCS),即在滑坡点周围设定一定距离的缓冲区,在缓冲区外随机选择负样本。这种方法虽然简单易行,但存在明显局限:单纯依靠空间距离无法准确反映地理环境的异质性,滑坡点附近也可能存在稳定区域,而远离滑坡点的地方反而可能具有滑坡风险。此外,随机采样可能导致负样本与正样本在特征空间上过于相似,降低模型的区分能力。
针对这些问题,浙江大学海洋学院的研究团队在《Ecological Indicators》上发表了一项创新研究,提出了一种名为AHP-KDE的多环采样策略。该研究以浙江省临安区为案例,收集了163个滑坡点和12种环境因子数据,通过构建六个梯度缓冲区(0.5-1公里、1-2公里、2-3公里、3-4公里、4-5公里、5-6公里),系统分析了不同距离区间负样本对滑坡易发性预测模型性能的影响。
研究人员采用了四种机器学习模型(随机森林RF、逻辑回归LR、轻量级梯度提升机LightGBM、多层感知器MLP)进行建模,并运用SHAP(SHapley Additive exPlanations)可解释性技术剖析模型决策机制。研究发现,不同缓冲区间的负样本质量存在显著差异,并非距离越远样本代表性越好。例如,1-2公里和2-3公里缓冲区的模型AUC值降至约0.6,而4-5公里缓冲区则表现最佳。
基于这些发现,研究团队创新性地将层次分析法(Analytic Hierarchy Process, AHP)与核密度估计(Kernel Density Estimation, KDE)相结合,建立了AHP-KDE多环采样框架。AHP用于量化各缓冲区的重要性并确定负样本分配权重,KDE则用于评估正负样本之间的地理相似性,筛选出代表性更强的负样本。
主要技术方法包括:基于遥感数据提取地形、水文、土地覆盖和岩性等12种环境因子;采用频率比(Frequency Ratio, FR)法评估各因子与滑坡分布的关系;构建六种梯度缓冲区并进行负样本随机采样;应用四种机器学习模型进行滑坡易发性建模;利用SHAP技术进行模型可解释性分析;结合AHP和KDE方法优化负样本选择。
研究结果方面,通过缓冲区重要性评估发现,3-4公里缓冲区权重最高(0.489),其次为5-6公里(0.215)和4-5公里(0.148)。模型性能比较显示,AHP-KDE方法相比传统BCS方法在AUC指标上提升0.069,准确率提高0.077,召回率提升0.25。LSI(Landslide Susceptibility Index)值分布分析表明,新方法的标准偏差从0.080增至0.223,显示模型区分能力显著增强。
SHAP分析揭示了不同缓冲区条件下模型决策机制的差异。以逻辑回归模型为例,距离道路的接近度是影响滑坡易发性的最关键因素,其SHAP值明显高于其他变量。在近距离缓冲区(0.5-3公里),降雨因子的影响力较弱,而在远距离缓冲区(3-6公里),降雨因子的重要性显著提升,说明模型在不同空间尺度下对特征关系的捕捉能力存在差异。
样本相似性评估结果显示,通过设定0.6的相似度阈值,有效筛选出了与正样本地理特征差异明显的负样本。例如,在3-4公里缓冲区所需的78个样本中,仅有46个满足阈值要求,其余32个从辅助区域补充,确保了样本的代表性。
与传统的BCS方法和极低易发性区(Very Low Susceptibility, VL)采样方法相比,AHP-KDE策略在保持空间分布合理性的同时,显著提升了模型的预测性能。特别是VL方法虽然在某些指标上表现良好,但其生成的易发性图存在明显空间偏差,出现了过拟合现象。
研究结论表明,空间距离 alone 不足以有效区分正负样本,不同距离的采样区间反映了环境因子的不同可分离性特征。AHP-KDE采样策略通过量化缓冲区重要性权重和降低正负样本空间相似性,有效克服了传统随机采样方法的局限性。该方法不仅提高了滑坡易发性预测的准确性,还为地质灾害风险评估提供了更加可靠的样本选择框架,对区域土地利用规划和灾害防治具有重要实践意义。
讨论部分进一步指出,负样本选择的质量对模型性能的影响甚至超过了模型选择本身。敏感性分析显示,缓冲区选择对AUC结果的平均绝对相关系数为0.339,而模型选择的影响仅为0.096。这一发现强调了在滑坡易发性预测研究中,更应关注训练数据集的质量和代表性,而非过度依赖模型算法的选择。
该研究的创新之处在于将多准则决策方法与地理统计技术相结合,系统解决了滑坡易发性预测中的负样本选择难题。提出的AHP-KDE框架不仅适用于滑坡预测,还可推广至其他空间预测领域,为类似的地理环境风险评估问题提供了方法论借鉴。未来研究可进一步探索更多环境因子的组合优化,以及在不同地理环境下的普适性验证。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号