
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于随机森林机器学习算法结合PALSAR与Sentinel-2A遥感数据的地质填图潜力研究——以蒙古南部Tsagaan-uul地区为例
【字体: 大 中 小 】 时间:2025年08月03日 来源:Journal of Asian Earth Sciences: X 1.7
编辑推荐:
针对蒙古偏远复杂地区地质填图效率低、数据稀缺的问题,本研究创新性整合Sentinel-2A多光谱数据、ALOS PALSAR地形特征与随机森林(RF)算法,系统评估了两种训练策略(地质图与野外样本)的建模效果。结果显示DEM和地形崎岖指数(TRI)为关键预测因子,模型总体精度达64.4%,为区域地质调查提供了可推广的机器学习解决方案。
在地质调查领域,蒙古广袤的国土面积与稀疏的野外数据形成鲜明矛盾。这个矿产资源丰富的国家,目前1:5万比例尺地质图覆盖率不足50%,传统填图方法在交通不便区域面临巨大挑战。尤其像Tsagaan-uul这样的关键成矿带,地质构造复杂且露头分散,亟需发展高效、低成本的现代填图技术。
匈牙利罗兰大学(E?tv?s Loránd University)地球科学博士学院的研究团队独辟蹊径,将机器学习与多源遥感数据融合,在《Journal of Asian Earth Sciences: X》发表了一项创新研究。他们选取蒙古南部Khatanbulag古地块的Tsagaan-uul区块作为实验区,这里发育从新元古代到第四纪的13套地质单元,包括Khulstai变质地体(NP1hl)的片麻岩、石英岩和志留系Khukh Morit组(S1hm)的灰岩-砾岩序列,是验证算法普适性的理想场所。
研究采用两大技术路线:其一是基于1:5万地质图的5000个分层随机样本,提取Sentinel-2A的10个光谱波段(如B5、B8A等)和6个铁相关指数(Ferric iron、Gossan等),结合ALOS PALSAR DEM衍生的地形粗糙度指数(TRI)、地形湿度指数(TWI)等20个预测变量;其二是利用36个野外岩石样本和30个第四纪补充点建立局部训练集。通过随机森林(RF)的变量重要性分析(Mean Decrease Gini)和多种数据分割策略(90-10%、80-20%、70-30%)的系统对比,揭示了不同数据配置对分类效果的影响。
变量重要性分析
DEM数据在所有模型中均展现最高区分度(MDG值超40),其次是TRI(约25)和Ferric iron指数(约15)。值得注意的是,Sentinel-2A的SWIR波段(B11、B12)在样本训练模型中贡献突出,印证了短波红外对硅酸盐矿物的敏感特性。
分类性能验证
基于地质图的模型1(90-10%分割,100棵树)取得最佳表现:总体精度64.4%,Kappa系数0.562。其中Baruun Tsohio组(C2bc)的F1-score达0.72,而Tugrug亚杂岩(ΛπP1t)因样本稀少仅0.18,凸显样本代表性的关键作用。
野外样本模型的创新发现
采用比例分层(proportional stratification)的Model 14展现出最优稳定性(平均概率0.635±0.213),证明在有限样本条件下,保持原始地层比例能有效提升小类别的识别率。
这项研究的意义不仅在于验证了RF在蒙古地质填图的适用性,更建立了可复制的技术框架:
地形参数(DEM、TRI)是基岩区分类的首要指标
训练集规模比决策树数量更能影响精度
第四纪覆盖层需结合高分辨率影像辅助标注
1:5万地质图存在边界模糊问题,需机器学习修正
该成果为中亚造山带(CAOB)类似区域的数字填图提供了重要参考,特别是将开源卫星数据(Sentinel-2A、ALOS)与轻量化算法结合的策略,对发展中国家地质调查具有显著成本优势。未来若能加入航磁或高光谱数据,有望进一步提升火成岩、变质岩的细分能力。
生物通微信公众号
知名企业招聘