
-
生物通官微
陪你抓住生命科技
跳动的脉搏
考虑环境因子最优离散化的区域滑坡敏感性预测模型比较研究:以江西省为例(ChiMerge、随机森林与统计模型的集成应用)
【字体: 大 中 小 】 时间:2025年09月22日 来源:Geocarto International 3.5
编辑推荐:
本文聚焦滑坡敏感性预测(LSP)中环境因子离散化方法的优化问题,通过对比ChiMerge(CM)、自然断点(NB)和等间隔(EI)三种离散化方法,结合频率比(FR)、确定性因子(CF)、信息量(IV)等统计模型与随机森林(RF)、支持向量机(SVM)等机器学习模型,在江西省开展大规模区域滑坡敏感性预测。研究结果表明,CM离散化方法能更精准捕捉环境因子与滑坡的关联性,显著提升模型预测精度(CM-RF的AUC达0.888),为滑坡灾害风险防控提供了高效可靠的技术路径。
滑坡作为常见地质灾害,严重威胁人类生命财产安全。基于区域滑坡编录数据和环境因子构建滑坡敏感性预测模型,是地质灾害防灾减灾的重要技术手段。然而,传统环境因子离散化方法(如自然断点法、等间隔法)存在区间划分主观性强、忽略因子对滑坡贡献差异等问题,影响模型可靠性。本研究以中国江西省为案例区,系统比较ChiMerge(CM)、自然断点(NB)和等间隔(EI)三种离散化方法,结合统计模型(FR、CF、IV)与机器学习模型(RF、SVM),探索环境因子最优离散化策略,提升大规模区域滑坡敏感性预测精度。
江西省位于中国南方丘陵区,面积16.69万km2,地形以盆地和山地为主,河网密布,人类工程活动频繁。研究采用1980–2020年历史滑坡数据(经遥感验证和野外核查后保留9536个有效点),滑坡类型以土质滑坡(81%)为主,其次为岩质滑坡(10%)和碎屑滑坡(9%)。环境因子包括高程、坡度、坡向、年均降雨量、NDVI、土地利用、岩性以及河流、道路、断层的线性因子缓冲区数据,所有数据均经过预处理和空间标准化。
ChiMerge(CM)离散化:基于χ2统计量(公式1)的监督式离散化方法,通过合并相邻区间优化因子分类,减少信息损失,适应非线性数据分布。
自然断点(NB)与等间隔(EI):作为传统方法对比,NB根据数据自然分布划分区间,EI按值域等分,但均未考虑滑坡贡献差异。
频率比(FR):计算因子区间内滑坡面积占比与全区滑坡面积的比值(公式2),反映因子与滑坡的空间关联性。
信息量(IV):FR的自然对数(公式3),量化因子区间对滑坡的信息贡献。
确定性因子(CF):通过条件概率计算因子区间对滑坡发生的确定性程度(公式4),值域为[-1,1]。
随机森林(RF):基于决策树和Bagging的集成学习算法,使用Gini系数(公式5)评估节点分裂纯度,擅长处理高维数据且抗过拟合。
支持向量机(SVM):通过核函数(如RBF核,公式9)映射数据到高维空间,寻找最优分类超平面(公式6-8),适用于非线性分类问题。
采用混淆矩阵衍生的指标(准确率、召回率、F1分数、Kappa系数)及ROC曲线(AUC值)、成功率/预测率曲线综合评估模型性能。
CM离散化后的环境因子区间在FR、IV、CF值上均呈现更高峰值(图4-6),表明其能更精准识别滑坡易发区间。例如:
高程最优区间为(128, 297] m(FR=1.729);
坡度最优区间为(11.7, 14.2]°(FR=1.695);
道路缓冲区最优范围为0–90 m(FR=3.301),河流为0–127 m(FR=2.115)。
NB方法表现次之,而EI方法在值域较大的因子(如高程、断层)中离散化效果较差。
基于CM离散化的FR、IV、CF模型ROC-AUC均达0.79以上(图7),优于NB和EI方法。FR模型在低敏感性区划分效果最佳,适合作为机器学习样本筛选的预处理工具。滑坡敏感性分区显示(图8),FR模型高-极高敏感区仅占9.25%面积但包含38.26%滑坡点,验证了分区合理性。
参数优化:RF模型在决策树数=100时OOB误差稳定(CM-RF最低为19.93%);SVM模型最优参数为c=10、g=100(图9-10)。
预测精度:CM-RF模型综合表现最佳(AUC=0.888,OA=74.93%,Kappa=49.86%),其高-极高敏感区占15.24%面积却包含88.12%历史滑坡(图11-13)。CM-SVM(AUC=0.838)同样优于其他离散化组合。
空间分布:高敏感区集中分布于赣南山区及人类工程活动频繁区域(如道路切坡、河谷地带)。
CM方法通过χ2统计驱动区间合并,显著提升因子分类的客观性和模型精度,尤其适合大规模复杂环境下的LSP研究。但其依赖足够滑坡样本支撑统计检验,在样本稀疏区域可能不稳定,且计算效率较低。未来可结合动态规划算法或过采样技术优化。
省级尺度LSP面临空间异质性高、数据一致性难等问题,模型精度(AUC 0.6–0.8)普遍低于市县级研究,但宏观视角能为区域风险管理和国土空间规划提供不可替代的支撑。分层预测策略(大尺度筛查+局部细化)是未来重要方向。
本研究框架适用于以降雨型滑坡为主的湿润-半湿润区(如中国南方)。在地震滑坡主导区需补充震动因子。案例应用显示,CM-RF模型在瑞金市局部滑坡风险预警中已取得实际防控效益。
CM离散化方法能更精准捕捉环境因子与滑坡的关联性,显著提升统计与机器学习模型预测精度;
FR模型兼具高效计算与分区合理性,适合作为机器学习预处理工具;
CM-RF模型(AUC=0.888)为省级尺度滑坡风险防控提供了最优技术路径,其高敏感区面积占比小但滑坡涵盖率高,利于精准划定监测范围。
本研究为环境因子离散化提供了标准化框架,对推进地质灾害智能预警具有重要实践意义。
生物通微信公众号
知名企业招聘