利用基于机器学习的滑坡易发性评估方法,并采用一种新型的基于SHAP的采样策略
《Geoscience Frontiers》:Landslide susceptibility assessment using machine learning with a novel SHAP-based sampling strategy
【字体:
大
中
小
】
时间:2025年10月24日
来源:Geoscience Frontiers 8.9
编辑推荐:
滑坡易发性评估中,非滑坡样本选择常导致信息冗余或偏差。本文提出基于SHAP算法的采样策略,通过量化各地质因子贡献度生成多维度采样空间,结合贝叶斯优化确定最优参数组合(N=4,M=4)。在湖南三个县的应用表明,SHAP优化采样使随机森林(AUC提升8.2%)和XGBoost(AUC提升9.0%)模型性能显著优于传统随机采样。跨区域验证显示该方法可迁移,但需根据地区特性调整参数。
本研究旨在改进基于机器学习的滑坡易发性评估中的非滑坡样本选择方法,从而提升模型的预测能力和结果的可靠性。滑坡与非滑坡样本是进行此类评估的关键输入数据,但非滑坡样本往往因随机采样而存在更高的不确定性。传统的非滑坡采样方法,如基于特征空间的策略,通常仅考虑单一因素或所有因素的整体特性,这可能导致非滑坡样本的人工集中或信息冗余。为此,研究提出了一种基于SHapley Additive exPlanations(SHAP)算法的采样策略,该策略通过分析滑坡控制因素(LCFs)的综合特征,构建出多个采样空间,并利用贝叶斯优化算法选择最优采样空间。通过在湖南省的三个县(Chaling、Yanling、Guidong)以及Anhua县的应用,结果表明该方法显著提升了模型的预测性能,特别是在AUC指标上分别提高了8.2%和9.0%。此外,该采样框架在不同地质和地貌条件下的研究区域中表现出良好的适应性,为其他地区的应用提供了潜力,但需要针对具体区域进行参数优化。
滑坡是一种广泛且破坏性极大的地质灾害,对人类生命、基础设施和自然资源造成重大影响。因此,开发有效的预测方法以减少滑坡带来的损失至关重要。滑坡易发性评估(LSA)作为定量滑坡风险评估的基础,对灾害防治具有重要指导意义。传统的LSA方法主要分为物理模型、知识驱动模型和数据驱动模型。其中,数据驱动模型利用统计和机器学习技术进行滑坡易发性分析,因其能够处理非线性关系和避免过拟合问题而成为当前研究的热点。然而,数据驱动模型的性能高度依赖于训练和测试数据集的质量,尤其是非滑坡样本的选择。
在传统方法中,非滑坡样本通常通过随机采样获得,这可能导致样本之间的重叠或代表性不足。因此,研究提出了一种基于SHAP的采样策略,该策略结合了多个滑坡控制因素的特征,以提升非滑坡样本的代表性。通过SHAP算法对各因素的重要性进行排序,并根据重要性顺序构建多个采样空间,从而减少样本的冗余和集中。贝叶斯优化算法被用来选择最优的采样空间,以最大化模型的预测能力。
研究中使用了两种常用的机器学习模型:随机森林(RF)和极端梯度提升决策树(XGBoost)。通过比较基于SHAP的采样策略与传统的空间随机采样方法,评估了两种模型的性能。结果显示,采用SHAP采样策略的改进模型在AUC指标上分别提高了8.2%和9.0%。此外,该策略在不同地质和地貌条件下的研究区域中表现出良好的适应性,表明其具有一定的可迁移性。然而,由于不同地区的地质条件和环境特征存在差异,仍需对参数进行局部优化以确保模型的性能。
研究区域位于中国湖南省的东南部,地理坐标为东经113°20′55″至140°07′15″,北纬25°43′48″至27°07′25″。该区域地形多样,以山地和丘陵为主,整体地势西北低、东南高。气候属于亚热带湿润季风区,具有明显的季节特征,阳光充足,降水丰富。年平均降水量约为1761.5毫米,被认为是湖南省的多雨区域。此外,该区域还具有独特的垂直气候带,不同海拔的气候条件差异显著。研究共收集了565个滑坡样本,用于后续的机器学习分析。这些滑坡主要由土壤和砾石土构成,滑坡形态以半圆形为主。季节性强降雨和频繁的人类工程活动是滑坡发生的主因。这些滑坡的体积范围从10立方米到969,620立方米不等,平均体积为1,514立方米。这些滑坡影响了19,917人,直接经济损失约为5.6659亿元人民币。由于实际滑坡边界数据不可用,研究采用基于点状滑坡位置的缓冲区技术来缓解建模过程中样本不平衡的问题。尽管实际滑坡边界数据能提供更准确的结果,但受数据限制,缓冲区方法成为合理的选择。
研究使用了多种数据源,包括滑坡清单信息和实地调查数据、30米分辨率的DEM(ASTER GDEM V3)、Landsat 8 OLI影像数据(用于提取归一化植被指数NDVI)以及1:50,000比例尺的岩石地层图(提供岩石类型和地质结构数据)。滑坡控制因素(LCFs)根据滑坡成因分析和数据可用性被初始识别为16个因素,包括高程、坡向、坡度、坡位、剖面曲率、平面曲率、地形粗糙度指数(TRI)、岩石类型、距离断层、距离河流、降水量、流体功率指数(SPI)、地形湿润指数(TWI)、距离公路、土地利用和NDVI。这些因素被归类为地貌因素、基本地质因素、水文因素和人为影响因素。
为了确保LCFs之间的独立性,研究对这些因素进行了相关性分析,使用了皮尔逊相关系数和方差膨胀因子(VIF)来衡量相关性和多重共线性。结果显示,虽然所有VIF值均低于10,但某些因素对之间的皮尔逊相关系数超过0.5,表明它们之间存在强相关性。因此,剔除了TWI、TRI、降水量和NDVI,最终保留了12个因素进行后续分析。
研究还分析了不同采样策略下的不确定性。由于随机采样一次生成的滑坡易发性图(LSMs)存在较高的不确定性,影响了易发性评估的可靠性。因此,研究采用了重复采样方法,通过计算易发性指数的变异系数(COV)来确定重复采样的次数。结果显示,经过600次重复采样后,COV值趋于稳定,表明采样随机性的影响已被有效缓解。因此,后续的LSA采用了600次重复采样。
为了验证采样空间的选择,研究使用SHAP算法对LCFs的贡献进行了全局解释。结果表明,土地利用对模型预测具有最高贡献(0.31),其次是距离公路(0.17),而平面曲率的贡献最低(0.01)。进一步分析各因素属性值对预测值的影响,使用单因素依赖分析来量化这种影响,并通过SHAP值的分布来确认参数组合。结果显示,使用SHAP采样策略的模型在AUC、准确率、召回率、特异性和精确度等指标上均优于传统随机采样方法。
通过构建多个采样空间,并使用贝叶斯优化算法选择最优参数组合(N=4,M=4),研究验证了该采样策略的有效性。结果表明,采用该策略的模型在预测性能上显著提升,特别是在高和极高易发性区域的预测能力方面。此外,研究还探讨了该策略在不同研究区域的可迁移性,如Anhua县。尽管Anhua县与Chaling、Yanling和Guidong县在地貌和气候条件上存在显著差异,但基于SHAP的采样策略仍能有效提升模型的预测能力。
最后,研究讨论了该策略在工程应用中的有效性。通过SHAP算法对实际滑坡样本进行解释,并与现场调查报告进行对比,验证了该方法在灾害防治中的应用价值。尽管SHAP采样策略提高了模型的可解释性,但其计算成本较高,需要在模型透明度和计算效率之间进行权衡。研究建议通过并行计算、GPU加速或优化迭代次数来提高计算效率,同时保持模型性能。此外,研究指出,未来可以结合更高分辨率的遥感数据等额外数据源,以进一步提升模型的可靠性与泛化能力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号