考虑环境因子最优离散化的区域滑坡敏感性预测模型比较研究：以江西省为例（ChiMerge、随机森林与统计模型的集成应用）

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月22日 来源：Geocarto International 3.5

编辑推荐：

　　本文聚焦滑坡敏感性预测（LSP）中环境因子离散化方法的优化问题，通过对比ChiMerge（CM）、自然断点（NB）和等间隔（EI）三种离散化方法，结合频率比（FR）、确定性因子（CF）、信息量（IV）等统计模型与随机森林（RF）、支持向量机（SVM）等机器学习模型，在江西省开展大规模区域滑坡敏感性预测。研究结果表明，CM离散化方法能更精准捕捉环境因子与滑坡的关联性，显著提升模型预测精度（CM-RF的AUC达0.888），为滑坡灾害风险防控提供了高效可靠的技术路径。

研究背景与意义

滑坡作为常见地质灾害，严重威胁人类生命财产安全。基于区域滑坡编录数据和环境因子构建滑坡敏感性预测模型，是地质灾害防灾减灾的重要技术手段。然而，传统环境因子离散化方法（如自然断点法、等间隔法）存在区间划分主观性强、忽略因子对滑坡贡献差异等问题，影响模型可靠性。本研究以中国江西省为案例区，系统比较ChiMerge（CM）、自然断点（NB）和等间隔（EI）三种离散化方法，结合统计模型（FR、CF、IV）与机器学习模型（RF、SVM），探索环境因子最优离散化策略，提升大规模区域滑坡敏感性预测精度。

研究区概况与数据来源

江西省位于中国南方丘陵区，面积16.69万km²，地形以盆地和山地为主，河网密布，人类工程活动频繁。研究采用1980–2020年历史滑坡数据（经遥感验证和野外核查后保留9536个有效点），滑坡类型以土质滑坡（81%）为主，其次为岩质滑坡（10%）和碎屑滑坡（9%）。环境因子包括高程、坡度、坡向、年均降雨量、NDVI、土地利用、岩性以及河流、道路、断层的线性因子缓冲区数据，所有数据均经过预处理和空间标准化。

研究方法

1. 离散化方法

ChiMerge（CM）离散化：基于χ²统计量（公式1）的监督式离散化方法，通过合并相邻区间优化因子分类，减少信息损失，适应非线性数据分布。

自然断点（NB）与等间隔（EI）：作为传统方法对比，NB根据数据自然分布划分区间，EI按值域等分，但均未考虑滑坡贡献差异。

2. 统计模型

•
频率比（FR）：计算因子区间内滑坡面积占比与全区滑坡面积的比值（公式2），反映因子与滑坡的空间关联性。
•
信息量（IV）：FR的自然对数（公式3），量化因子区间对滑坡的信息贡献。
•
确定性因子（CF）：通过条件概率计算因子区间对滑坡发生的确定性程度（公式4），值域为[-1,1]。

3. 机器学习模型

•
随机森林（RF）：基于决策树和Bagging的集成学习算法，使用Gini系数（公式5）评估节点分裂纯度，擅长处理高维数据且抗过拟合。
•
支持向量机（SVM）：通过核函数（如RBF核，公式9）映射数据到高维空间，寻找最优分类超平面（公式6-8），适用于非线性分类问题。

4. 精度评价

采用混淆矩阵衍生的指标（准确率、召回率、F1分数、Kappa系数）及ROC曲线（AUC值）、成功率/预测率曲线综合评估模型性能。

研究结果

1. 离散化方法对比

CM离散化后的环境因子区间在FR、IV、CF值上均呈现更高峰值（图4-6），表明其能更精准识别滑坡易发区间。例如：

•
高程最优区间为（128, 297] m（FR=1.729）；
•
坡度最优区间为（11.7, 14.2]°（FR=1.695）；
•
道路缓冲区最优范围为0–90 m（FR=3.301），河流为0–127 m（FR=2.115）。

NB方法表现次之，而EI方法在值域较大的因子（如高程、断层）中离散化效果较差。

2. 统计模型预测效果

基于CM离散化的FR、IV、CF模型ROC-AUC均达0.79以上（图7），优于NB和EI方法。FR模型在低敏感性区划分效果最佳，适合作为机器学习样本筛选的预处理工具。滑坡敏感性分区显示（图8），FR模型高-极高敏感区仅占9.25%面积但包含38.26%滑坡点，验证了分区合理性。

3. 机器学习模型性能

•
参数优化：RF模型在决策树数=100时OOB误差稳定（CM-RF最低为19.93%）；SVM模型最优参数为c=10、g=100（图9-10）。
•
预测精度：CM-RF模型综合表现最佳（AUC=0.888，OA=74.93%，Kappa=49.86%），其高-极高敏感区占15.24%面积却包含88.12%历史滑坡（图11-13）。CM-SVM（AUC=0.838）同样优于其他离散化组合。
•
空间分布：高敏感区集中分布于赣南山区及人类工程活动频繁区域（如道路切坡、河谷地带）。

讨论

1. CM离散化的优势与局限

CM方法通过χ²统计驱动区间合并，显著提升因子分类的客观性和模型精度，尤其适合大规模复杂环境下的LSP研究。但其依赖足够滑坡样本支撑统计检验，在样本稀疏区域可能不稳定，且计算效率较低。未来可结合动态规划算法或过采样技术优化。

2. 大尺度预测的挑战与价值

省级尺度LSP面临空间异质性高、数据一致性难等问题，模型精度（AUC 0.6–0.8）普遍低于市县级研究，但宏观视角能为区域风险管理和国土空间规划提供不可替代的支撑。分层预测策略（大尺度筛查+局部细化）是未来重要方向。

3. 模型通用性

本研究框架适用于以降雨型滑坡为主的湿润-半湿润区（如中国南方）。在地震滑坡主导区需补充震动因子。案例应用显示，CM-RF模型在瑞金市局部滑坡风险预警中已取得实际防控效益。

结论

1.
CM离散化方法能更精准捕捉环境因子与滑坡的关联性，显著提升统计与机器学习模型预测精度；
2.
FR模型兼具高效计算与分区合理性，适合作为机器学习预处理工具；
3.
CM-RF模型（AUC=0.888）为省级尺度滑坡风险防控提供了最优技术路径，其高敏感区面积占比小但滑坡涵盖率高，利于精准划定监测范围。

本研究为环境因子离散化提供了标准化框架，对推进地质灾害智能预警具有重要实践意义。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号