《CMES - Computer Modeling in Engineering and Sciences》:XGBoost-Based Active Learning for Wildfire Risk Prediction
编辑推荐:
本文针对传统山火风险预测模型在数据稀缺或标签不可靠场景下泛化能力不足的痛点,提出了一种基于XGBoost的主动学习框架。该研究通过设计时空数据自主划分策略,结合专家经验或物理模型对低置信度样本进行重标注,有效提升了模型在有限标注数据下的预测精度与泛化能力,为解决山火预警中的“数据饥渴”问题提供了创新性解决方案。
在全球气候变暖的背景下,森林火灾已成为全球范围内频发且破坏力巨大的自然灾害之一。每年,中国、澳大利亚、美国、俄罗斯和加拿大等国都面临着严峻的森林防火挑战。森林火灾不仅造成巨大的植被破坏和经济损失,更对森林生态系统中的生物多样性构成了不可逆转的威胁,甚至直接危及人类生命。因此,如何有效预测森林和草原火灾,实现早期预警,已成为一个紧迫的科学与社会问题。
传统的森林火灾风险预警方法主要基于长期积累的经验和知识,识别出与火灾风险密切相关的关键因素。例如,澳大利亚气象局开发的火灾危险指数(FDI)、美国林务局开发的国家火灾危险等级系统(NFDRS)以及加拿大林务局开发的火灾天气指数(FWI)等,这些模型通常依赖于气象因素(如温度、湿度、风速、燃料湿度等)与火灾风险之间已建立的明确关系,并利用预设的阈值来触发预警。然而,这些传统方法存在明显的局限性:它们通常只考虑少数几个因素,且由人类设定的阈值可能不够精确或无法适应多变的条件,导致火灾风险预测的准确性受到限制。
随着技术的发展,机器学习已成为解决传统火灾风险预测模型局限性的有前景的解决方案。机器学习方法能够促进多源数据的融合,整合影响火灾风险的广泛变量。通过从历史数据中学习,机器学习模型可以自主识别这些因素与火灾风险之间复杂的非线性关系。这种处理和分析更广泛变量集、并适应不断变化的数据模式的能力,使机器学习成为当前森林火灾风险预测研究的焦点。
尽管基于机器学习的火灾风险预测研究日益增多,但在实际应用中取得成功的案例仍然有限。一个根本性的挑战在于机器学习模型(尤其是监督学习)对数据质量的严重依赖。虽然世界各地的林业机构都精心记录了历史火灾事件,为数据驱动建模提供了宝贵的基础,但不加批判地使用这些数据会带来显著风险。具体来说,存在一个普遍的数据误读问题:历史上发生过火灾的地点通常被标记为高风险,而没有记录火灾的地点则被认为是低风险。然而,没有发生过火灾的区域并不一定是安全的——它们可能代表未被充分观测的区域,或者仅仅是因为尚未遇到火源。同样,一些靠近历史火灾事件的地点可能由于空间或时间上的接近而被错误地归类为高风险,即使该地的条件并不利于火灾发生。由于观测点数量庞大且特征空间维度高,手动验证每个数据点是不可行的。因此,开发一种能够识别两类信息丰富实例的方法至关重要:一类是实际上可能属于高风险的非火灾点,另一类是实际上可能属于低风险的火灾邻近点。这些实例可以由专家进行验证,并重新引入模型,从而优化其预测精度。
为了应对这些挑战,电子科技大学自动化工程学院的研究团队在《CMES - Computer Modeling in Engineering and Sciences》上发表了一项研究,提出了一种基于XGBoost的主动学习框架,用于山火风险预测。该研究旨在探索如何利用积累的领域专业知识来减少模型对大量高质量数据的依赖,从而在数据稀缺或标签不可靠的情况下,实现更准确、更可靠的山火风险预测。
为了开展这项研究,研究人员首先设计了一种基于时空数据的风险分类方法,能够从大规模历史数据集中自主识别高、低风险数据。随后,他们构建了一个基于XGBoost的主动学习山火风险预测模型,该模型将经验模型与数据驱动模型相结合,以防止过拟合。最后,他们提出了一种新颖的架构,该架构基于XGBoost,能够有效避免灾难性遗忘,确保模型在整合重新标记的数据时保留已学到的知识。
在技术方法层面,该研究主要运用了以下关键技术:
- 1.
XGBoost(Extreme Gradient Boosting)算法:作为核心预测模型,XGBoost通过梯度提升策略,以加法模型的形式逐步拟合损失函数,通过多次迭代学习多个决策树的加权和,从而获得高效且准确的预测模型。其目标函数包含损失函数和正则化项,通过泰勒展开进行近似,并利用一阶和二阶导数来优化树的结构和权重。
- 2.
时空数据自主划分策略:为了解决数据标签不可靠的问题,研究人员提出了一种基于时空采样的方法。该方法将历史火灾点视为三维空间(包含时间维度)中的分布,利用3σ原则(即99.7%的数据点落在3倍标准差范围内)来定义高风险区域。位于该区域内的点被自动标记为高风险,而区域外的点则被标记为低风险,从而实现了对大规模历史数据的初步粗筛。
- 3.
主动学习(Active Learning)机制:这是本研究的核心创新。该机制通过计算模型预测的误差(或置信度指数)来识别不确定样本。当误差超过预设阈值时,这些样本被标记为“不确定”,并提交给专家或经验模型(如GB/T 36743-2018森林火险天气等级FFDR系统)进行重新标记。重新标记后的数据被用来训练新的决策树,并以增量学习的方式整合到XGBoost模型中,从而在避免灾难性遗忘的同时,不断提升模型的性能。
研究团队基于四川省林业部门提供的近20年历史山火监测记录(涵盖8000多起火灾事件)进行了实验分析。根据火灾点的空间分布模式和聚类特征,研究区域被划分为三个子区域:区域1(横断山脉东缘)、区域2(低山丘陵区)和区域3(四川盆地中东部)。实验旨在全面评估所提模型的有效性,重点验证主动学习机制和增量学习策略。
2.1. 主动学习机制有效性实验
为了评估主动学习机制的有效性,研究人员首先在区域1的数据上进行了实验。在引入主动学习机制之前,XGBoost模型在训练集和测试集上的准确率分别为76.4%和74.9%。随后,他们将主动学习机制集成到XGBoost框架中,并设置了不同的置信度阈值(ε=0.7和ε=0.8)进行验证。
实验结果表明,在两个阈值下,模型在训练集和测试集上的准确率均随着迭代次数的增加而持续提升,并最终趋于稳定。当ε=0.7时,模型在训练集和测试集上的最终准确率分别达到92.0%和91.8%;当ε=0.8时,最终准确率分别为97.1%和95.4%。在整个迭代过程中,训练集和测试集的准确率始终保持非常接近,这表明模型在结合人机回路的迭代训练中,有效地保持了其泛化能力。
此外,研究人员还绘制了经典XGBoost模型和Active-XGBoost模型的ROC曲线。结果显示,经过迭代训练后,模型的有效性得到了显著改善。主动学习机制成功地识别并纠正了包含误导信息的样本,从而增强了模型预测实际火灾风险的能力。
为了进一步验证主动学习模型能够有效过滤掉包含误导信息的样本,研究人员还进行了人工干预实验。他们将100个已确认的火灾事件的标签人为地修改为低风险,从而在数据集中引入了误导性样本。结果显示,在ε=0.7和ε=0.8的阈值下,分别有74%和63%的误导性数据得到了纠正。这证实了主动学习机制能够有效识别包含误导信息的样本,从而增强了模型的识别能力。
最后,研究人员将Active-XGBoost模型与其他几种公认具有较强泛化性能的机器学习模型(包括决策树DT、随机森林RF、逻辑回归LR、支持向量机SVM、梯度提升决策树GBDT和人工神经网络ANN)进行了比较。结果显示,在相同的训练集比例下,Active-XGBoost的准确率始终优于其他模型。其中,Active-XGBoost方法的准确率达到了95.4%,而表现最好的对比模型(RF和SVM)的准确率分别为79.6%和78.3%。此外,Active-XGBoost模型在精确率、召回率和特异性等指标上也均显著优于其他对比模型。
2.2. 增量学习机制有效性实验
在区域1上预训练的模型基础上,研究人员利用区域2和区域3的样本进行了增量学习。实验结果显示,在区域2和区域3的迭代增量学习过程中,模型准确率均迅速提升并趋于稳定。这表明,本文提出的增量主动学习方法在跨区域场景下依然有效,并且能够通过迭代更新持续提升模型性能。
为了进一步评估增量学习方法的有效性,研究人员比较了所提模型与几种基线算法在不同训练集规模下的性能。实验中,训练集的比例从最低5%逐渐增加到最高80%。结果表明,在采样比例相同的训练集下,Active-XGBoost的准确率始终高于其他模型。值得注意的是,Active-XGBoost即使在仅有5%的总标注数据下也表现出了强劲的性能。这表明该方法能够仅用少量标注数据实现跨区域的泛化,这一特性对于标注数据成本高昂或难以获取的地区具有重要的实用价值。
综上所述,本研究提出了一种基于XGBoost的主动学习框架,用于解决山火风险预测中数据标签不可靠的问题。该研究通过设计时空数据自主划分策略,结合专家经验或物理模型对低置信度样本进行重标注,有效提升了模型在有限标注数据下的预测精度与泛化能力。实验结果表明,该模型在识别和纠正误导性样本方面表现出色,其性能显著优于传统的机器学习模型,并且在跨区域场景下展现了良好的泛化能力。这项研究为解决山火预警中的“数据饥渴”问题提供了创新性解决方案,并为将专家知识有效融入数据驱动模型开辟了新的途径。