考虑环境因子最优离散化的区域滑坡敏感性预测模型比较研究:以江西省为例(ChiMerge、随机森林与统计模型的集成应用)

【字体: 时间:2025年09月22日 来源:Geocarto International 3.5

编辑推荐:

  本文聚焦滑坡敏感性预测(LSP)中环境因子离散化方法的优化问题,通过对比ChiMerge(CM)、自然断点(NB)和等间隔(EI)三种离散化方法,结合频率比(FR)、确定性因子(CF)、信息量(IV)等统计模型与随机森林(RF)、支持向量机(SVM)等机器学习模型,在江西省开展大规模区域滑坡敏感性预测。研究结果表明,CM离散化方法能更精准捕捉环境因子与滑坡的关联性,显著提升模型预测精度(CM-RF的AUC达0.888),为滑坡灾害风险防控提供了高效可靠的技术路径。

  

研究背景与意义

滑坡作为常见地质灾害,严重威胁人类生命财产安全。基于区域滑坡编录数据和环境因子构建滑坡敏感性预测模型,是地质灾害防灾减灾的重要技术手段。然而,传统环境因子离散化方法(如自然断点法、等间隔法)存在区间划分主观性强、忽略因子对滑坡贡献差异等问题,影响模型可靠性。本研究以中国江西省为案例区,系统比较ChiMerge(CM)、自然断点(NB)和等间隔(EI)三种离散化方法,结合统计模型(FR、CF、IV)与机器学习模型(RF、SVM),探索环境因子最优离散化策略,提升大规模区域滑坡敏感性预测精度。

研究区概况与数据来源

江西省位于中国南方丘陵区,面积16.69万km2,地形以盆地和山地为主,河网密布,人类工程活动频繁。研究采用1980–2020年历史滑坡数据(经遥感验证和野外核查后保留9536个有效点),滑坡类型以土质滑坡(81%)为主,其次为岩质滑坡(10%)和碎屑滑坡(9%)。环境因子包括高程、坡度、坡向、年均降雨量、NDVI、土地利用、岩性以及河流、道路、断层的线性因子缓冲区数据,所有数据均经过预处理和空间标准化。

研究方法

1. 离散化方法

ChiMerge(CM)离散化:基于χ2统计量(公式1)的监督式离散化方法,通过合并相邻区间优化因子分类,减少信息损失,适应非线性数据分布。

自然断点(NB)与等间隔(EI):作为传统方法对比,NB根据数据自然分布划分区间,EI按值域等分,但均未考虑滑坡贡献差异。

2. 统计模型

  • 频率比(FR):计算因子区间内滑坡面积占比与全区滑坡面积的比值(公式2),反映因子与滑坡的空间关联性。

  • 信息量(IV):FR的自然对数(公式3),量化因子区间对滑坡的信息贡献。

  • 确定性因子(CF):通过条件概率计算因子区间对滑坡发生的确定性程度(公式4),值域为[-1,1]。

3. 机器学习模型

  • 随机森林(RF):基于决策树和Bagging的集成学习算法,使用Gini系数(公式5)评估节点分裂纯度,擅长处理高维数据且抗过拟合。

  • 支持向量机(SVM):通过核函数(如RBF核,公式9)映射数据到高维空间,寻找最优分类超平面(公式6-8),适用于非线性分类问题。

4. 精度评价

采用混淆矩阵衍生的指标(准确率、召回率、F1分数、Kappa系数)及ROC曲线(AUC值)、成功率/预测率曲线综合评估模型性能。

研究结果

1. 离散化方法对比

CM离散化后的环境因子区间在FR、IV、CF值上均呈现更高峰值(图4-6),表明其能更精准识别滑坡易发区间。例如:

  • 高程最优区间为(128, 297] m(FR=1.729);

  • 坡度最优区间为(11.7, 14.2]°(FR=1.695);

  • 道路缓冲区最优范围为0–90 m(FR=3.301),河流为0–127 m(FR=2.115)。

    NB方法表现次之,而EI方法在值域较大的因子(如高程、断层)中离散化效果较差。

2. 统计模型预测效果

基于CM离散化的FR、IV、CF模型ROC-AUC均达0.79以上(图7),优于NB和EI方法。FR模型在低敏感性区划分效果最佳,适合作为机器学习样本筛选的预处理工具。滑坡敏感性分区显示(图8),FR模型高-极高敏感区仅占9.25%面积但包含38.26%滑坡点,验证了分区合理性。

3. 机器学习模型性能

  • 参数优化:RF模型在决策树数=100时OOB误差稳定(CM-RF最低为19.93%);SVM模型最优参数为c=10、g=100(图9-10)。

  • 预测精度:CM-RF模型综合表现最佳(AUC=0.888,OA=74.93%,Kappa=49.86%),其高-极高敏感区占15.24%面积却包含88.12%历史滑坡(图11-13)。CM-SVM(AUC=0.838)同样优于其他离散化组合。

  • 空间分布:高敏感区集中分布于赣南山区及人类工程活动频繁区域(如道路切坡、河谷地带)。

讨论

1. CM离散化的优势与局限

CM方法通过χ2统计驱动区间合并,显著提升因子分类的客观性和模型精度,尤其适合大规模复杂环境下的LSP研究。但其依赖足够滑坡样本支撑统计检验,在样本稀疏区域可能不稳定,且计算效率较低。未来可结合动态规划算法或过采样技术优化。

2. 大尺度预测的挑战与价值

省级尺度LSP面临空间异质性高、数据一致性难等问题,模型精度(AUC 0.6–0.8)普遍低于市县级研究,但宏观视角能为区域风险管理和国土空间规划提供不可替代的支撑。分层预测策略(大尺度筛查+局部细化)是未来重要方向。

3. 模型通用性

本研究框架适用于以降雨型滑坡为主的湿润-半湿润区(如中国南方)。在地震滑坡主导区需补充震动因子。案例应用显示,CM-RF模型在瑞金市局部滑坡风险预警中已取得实际防控效益。

结论

  1. 1.

    CM离散化方法能更精准捕捉环境因子与滑坡的关联性,显著提升统计与机器学习模型预测精度;

  2. 2.

    FR模型兼具高效计算与分区合理性,适合作为机器学习预处理工具;

  3. 3.

    CM-RF模型(AUC=0.888)为省级尺度滑坡风险防控提供了最优技术路径,其高敏感区面积占比小但滑坡涵盖率高,利于精准划定监测范围。

    本研究为环境因子离散化提供了标准化框架,对推进地质灾害智能预警具有重要实践意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号