预测火灾易发性:将环境因素与知识图谱和神经网络相结合
《International Journal of Applied Earth Observation and Geoinformation》:Predicting fire susceptibility: Integrating environmental factors with knowledge graph and neural network
【字体:
大
中
小
】
时间:2025年10月15日
来源:International Journal of Applied Earth Observation and Geoinformation 8.6
编辑推荐:
火灾易发性分析:提出基于知识图谱和图神经网络的新方法,整合多源环境数据(土地利用、海拔等),有效预测火灾易发区域并识别关键影响因素,为防火管理提供决策支持。
全球气候变化和人类活动的加剧,使得野火的发生频率和强度显著上升,这对生态系统和人类安全构成了严峻挑战。尤其是在一些传统上不太容易发生野火的地区,野火的风险也逐渐显现。因此,准确预测野火易发性成为制定全面野火管理策略的关键。本研究提出了一种新的野火易发性分析方法,聚焦于爱丁堡及洛锡安地区2018至2021年的两个野火季节。通过将野火场景形式化为异构图,并构建基于知识图谱的野火易发性评估模型,我们利用图神经网络进行图表示学习,分析和可视化野火易发性评估结果,并评估环境因素的重要性。实验结果表明,该方法不仅能够有效预测野火易发性,还通过多次实验识别出该地区影响野火发生的四个关键环境因素,包括土地利用、土地覆盖、路径和海拔。这为野火管理与预防决策提供了更为可靠的基础。
野火是自然现象,它们在生态系统动态中发挥着多重作用,包括促进生物多样性以及帮助某些植物物种的再生。然而,当野火频繁且强度高时,它们对生态系统的稳定性构成重大威胁,并威胁人类的生命和财产安全。因此,开发有效的野火管理策略对于平衡野火的生态效益和减少安全风险、减轻损害至关重要。近年来,由于全球气候变化和人类活动的增强,野火的频率和强度显著上升,影响甚至传统上不太容易发生野火的地区。因此,识别那些野火发生可能性较高的区域对于有效的野火管理变得尤为重要。野火易发性,即特定区域野火发生的空间概率,是制定野火管理策略的基础。
传统的野火易发性预测方法通常依赖于地理信息系统(GIS)和遥感技术,以及统计机器学习和多准则决策分析(MCDA)方法。GIS和遥感主要作为数据分析的基础工具。GIS整合来自不同来源的空间信息,生成野火风险地图,而遥感则提供近实时、大规模的环境数据,使得能够捕捉研究区域的条件,如植被健康状况、燃料湿度和地表温度等。MCDA方法,如层次分析法(AHP),可用于对影响森林火灾的多种因素进行加权和排序,从而预测研究区域内的高风险地区。然而,MCDA方法在处理不确定性和选择和加权标准时存在固有的局限性。
机器学习模型在野火易发性图谱的制作中受到越来越多的关注,因为它们在处理大规模、多维环境数据方面具有强大的数据处理能力和易于使用的特点。常见的机器学习算法包括随机森林、支持向量机(SVM)、极端梯度提升(XGBoost)和神经网络。机器学习模型的核心优势在于其能够自动从大规模、多维的环境数据中提取非线性关系,提供高精度的野火风险预测。这些模型不依赖于预定义的参数关系,能够捕捉复杂模式,使得野火易发性评估更加灵活和准确。
然而,传统的机器学习模型,包括随机森林、逻辑回归和MaxEnt等,在建模野火发生的空间和上下文交互方面存在根本性的局限。这些模型通常将输入变量视为独立或弱相关预测因子,无法考虑复杂的特征依赖关系或空间配置。例如,中等温度、密集的灌木覆盖和靠近道路的区域,可能在某些地形类型中带来高火灾风险,但传统模型难以捕捉这种更高阶的条件模式。此外,它们通常依赖于点分类,而不明确建模空间单元之间的关系,这可能导致风险图的碎片化或生态上不合理的风险分布。虽然随机森林等集成方法在简单线性模型之上有所改进,但它们仍然基于平铺特征向量,无法融入环境系统的丰富拓扑或关系结构。野火的发生还受到内在空间相关的因素影响,如植被连续性、坡度对齐和人为通路,这些因素在传统的序列数据格式中未能得到良好体现。因此,由这些模型生成的野火易发性地图可能无法捕捉到对实际火灾风险有重要影响的新兴空间模式或局部交互。
此外,虽然像深度神经网络这样的复杂模型可以处理更复杂的數據结构,但其内部架构和决策过程往往具有“黑箱”特性,使得模型输出难以解释。缺乏可解释性限制了模型在理解火灾风险和原因至关重要的情况下的透明度,最终影响决策的可行性和可信度。为了提高可解释性,后处理分析方法如SHAP、LIME和置换重要性等已被广泛应用。这些技术旨在量化不同输入特征对模型预测的影响。然而,它们通常独立于模型架构,并可能难以捕捉环境过程中至关重要的空间依赖性和特征间关系。
为了解决这些问题,我们引入了一种新的方法来建模野火场景。通过将野火场景形式化为异构图,并从多源异构环境数据构建知识图谱,我们增强了野火场景的表示,更有效地捕捉复杂的非线性和空间关系。在本研究中,野火场景指的是用于野火易发性分析或预测的目标空间区域。它在知识图谱中表示为由该区域内的瓷砖组成的异构子图。每个节点和边编码环境和野火相关信息,捕捉数据的多源异构特性。野火场景的空间边界对应于研究区域的地理边界。
相比之下,基于知识图谱的方法将空间和上下文关系直接纳入模型结构,提供了一种更整合和全面的视角,以了解影响野火易发性的因素。与后处理方法如SHAP或LIME不同,这些方法在训练后解释模型行为,通常将特征独立处理,而知识图谱则在建模过程中嵌入领域结构和交互。这种结构整合可以通过更紧密地与底层环境过程对齐预测,从而增强模型的可解释性。基于此图,我们采用图神经网络进行野火易发性预测,考虑各种环境因素。此外,我们进一步分析模型,量化每个环境因素对预测结果的贡献。这种方法通过在建模过程中结构化地嵌入环境背景,提高了模型的可解释性,并为实际的野火管理决策提供了支持。
本研究的其余部分组织如下。在第2节中,我们介绍了研究区域和使用的数据,并详细说明了我们的方法。第3节展示了实验结果。第3.1节从机器学习的角度提供定量评估,以验证模型的预测能力。第3.2节探讨了模型在不同野火季节中的预测性能,以评估其泛化能力。第4节分析了实验结果,包括节点初始化维度的影响、不同环境因素的相对重要性、简化野火表示在知识图谱中的影响,以及模型复杂性与任务需求之间的关系。最后,第5节总结了我们的发现,并概述了未来研究的方向。
研究区域是爱丁堡及洛锡安地区,包括米勒斯郡、东洛锡安和西洛锡安,位于苏格兰中部。地理上,该地区位于大约经度3°20′W到2°20′W和纬度55°30′N到56°00′N之间,靠近苏格兰的东海岸。爱丁堡及洛锡安地区属于温带海洋性气候区,地形多样,生态系统丰富。地形主要包括平原、丘陵和沿海地区,海拔范围从海平面到600米。
尽管爱丁堡及洛锡安地区传统上不以野火风险著称,但该地区拥有多样化的草地、森林和泥炭地,加上夏季较高的温度和风速,为野火的发生创造了有利条件。与传统上易发生野火的地区相比,这种多样性给野火风险评估方法带来了独特的挑战。
我们选择爱丁堡及洛锡安地区作为研究区域(不包括岛屿),总面积为1760.804平方公里,如图1所示。火灾记录来源于苏格兰消防与救援服务提供的事件报告系统(IRS)数据。我们关注了2018至2021年间爱丁堡及洛锡安地区的火灾记录。考虑到季节特征对火灾的影响,我们集中分析了两个火灾季节的数据:4月至5月和6月至8月。为了避免训练集和测试集之间的数据重叠,我们使用4月至5月的火灾记录进行建模,而使用6月至8月的记录来测试模型。火灾季节的划分基于植被燃料的物候转变周期,即根据不同时期不同燃料类型(即植被覆盖类型)的特征划分火灾季节,包括11月至3月、4月至5月、6月至8月和9月至10月。
使用两个不同时间段的数据进行建模和测试是为了评估模型的泛化能力,确保其在不同时间段的有效性。这一方法假设这两个时间段之间的火灾发生机制和环境特征相对稳定。然而,我们认识到6月至8月期间的性能可能会有所变化,这可能是由于模型的能力或控制环境因素的变化所致。此外,这种划分有助于确保模型性能评估不会受到训练和测试过程中重叠数据的影响。
为了评估火灾发生模式在4月至5月和6月至8月之间是否保持足够一致,我们对这两个时间段的火灾记录进行了空间比较。如图2所示,子图(a)展示了每个时间段内的原始火灾点分布,显示出大致重叠的空间范围和强度。子图(b)展示了对每个时间段应用KMeans聚类(k=3)的结果。两个时间段之间聚类中心的空间接近性表明,尽管火灾驱动因素在季节上有所变化,但火灾事件往往集中在相似的区域。这种一致性支持了我们选择时间段进行分割的假设,即关键环境决定因素在选定的季节之间保持足够稳定。因此,使用4月至5月的数据进行模型训练,使用6月至8月的数据进行验证,为评估模型的泛化能力提供了一个实际且生态合理的策略,而不会引入数据泄露。
在训练过程中,为了防止数据泄露,知识图谱中的边被分为信息传递边和监督边。通过信息传递边连接的节点参与由公式(4)定义的信息传递过程。监督边不参与信息传递过程,但有助于损失计算。在我们的实验中,30%的训练集被指定为监督边。
我们还通过可视化概率矩阵来展示链接预测的结果,如图6所示。图中的黄色和橙色圆圈代表该区域中具有相同x坐标的瓷砖,而y坐标逐渐增加。红色圆圈代表火灾节点。其中,橙色圆圈表示有火灾记录的瓷砖,黄色圆圈表示没有火灾记录的瓷砖。绿色边表示模型的预测结果,较浅的绿色表示模型预测的较低概率,意味着该瓷砖发生火灾的可能性较低。相反,较深的绿色表示较高的火灾概率。这种可视化有助于理解模型在不同区域对火灾可能性的预测。
为了评估模型在实际应用中的表现,我们基于研究区域在6月至8月期间的火灾记录和环境数据构建了一个新的知识图谱。按照第2.2.3节的方法,我们使用模型进行预测。该知识图谱包含239,452个瓷砖节点、一个火灾节点和206个环境节点,共包含9,726,228条“has_environment”类型边和2024条“has_fire_record”类型边。基于不同维度的图编码器生成的野火易发性地图如图7所示。
使用6月至8月的数据生成易发性地图有两个原因。一方面,这是对模型泛化能力的测试,确保其在新的时间段内的有效性。另一方面,这有助于避免数据泄露,因为使用4月至5月的数据生成易发性地图可能会包含训练集的信息,从而导致预测结果不可靠。
我们选择了研究区域中的一列瓷砖,其瓷砖ID从25,930到26,030。这些瓷砖具有相同的x坐标,y坐标递增。该列瓷砖的相似性热图如图8所示。瓷砖相似性的可视化表明,随着瓷砖初始化维度的增加,瓷砖的表示变得更加准确。我们固定模型的隐藏层维度为128,并变化初始化维度。基于机器学习评估标准的结果如表4所示。这验证了模型在预测火灾时考虑了瓷砖的位置特征,且瓷砖位置特征越准确,模型的表现越好。值得注意的是,当初始化维度从128增加到256时,模型的提升并不显著。我们推测,增加初始化维度的益处受到环境因素的限制。由于瓷砖节点数量相对较大,增加初始化维度有助于提高它们的表示。然而,由于环境节点数量相对较少,增加初始化维度可能导致梯度消失等问题。
我们进一步分析了环境因素对结果的影响。在本研究中,我们采用基于梯度的分析方法来评估节点特征对模型预测的贡献。在完成模型训练后,我们使用前向传播计算模型的预测输出,并基于实际标签计算损失函数值。然后,我们使用反向传播算法计算损失函数相对于输入节点特征的梯度。这些梯度表明了每个特征对损失函数变化的敏感性,反映了每个特征的重要性。通过将这些梯度的绝对值相加,我们获得了每个环境节点的重要性评分。这一评分反映了各种节点特征对最终模型预测的影响,帮助我们识别模型决策过程中最关键的特征。节点重要性的排名如图9所示。
尽管不同地区的主导土地利用和土地覆盖类型略有差异,但森林、草地和农业用地通常由于其丰富的可燃材料而更容易发生野火。在我们的实验中,我们比较了高火灾易发区域与土地利用和土地覆盖数据。我们的发现表明,火灾易发性较高的土地利用和覆盖类型包括郊区和林地,特别是阔叶林、混合林和白蜡林、落叶林和针叶林及未分化的林地。相比之下,火灾易发性较低的土地利用和覆盖类型包括耕地、沿海地区(主要是沿海沉积物)、酸性草地、矮灌木苔原、农业用地(主要是作物)以及开阔苔原和沼泽地,以及沿海水域。值得注意的是,在研究区域内,森林似乎比草地更容易发生火灾。这可能是由于该地区土地覆盖数据中没有中性草地和钙质草地,且酸性草地几乎没有火灾记录。这突显了不同土地覆盖类型对野火的易发性存在差异,值得进一步研究。
总之,环境因素的重要性与传统的火灾安全知识一致。从火灾研究的角度来看,识别关键环境因素不仅有助于特定地区的火灾管理者制定更具针对性的预防措施,还提供了一个可复制的框架,可以应用于具有不同生态特征的其他地区。这种通用性对于全球火灾管理尤为重要,尤其是在气候变化和环境多样性增加的情况下,这些变化使得非传统火灾高发地区的火灾风险上升。确保模型的可解释性对于帮助这些地区更好地应对这些新兴挑战至关重要。此外,高度可解释的模型可以增强公众和政策制定者对火灾风险评估结果的信任,使灾害预防和缓解策略更加透明和可靠。特别是在复杂的环境条件下,理解模型如何推导出火灾易发性预测将极大地提高研究在现实应用中的影响力和有效性。
在当前的框架中,每个火灾场景在知识图谱中被建模为一个单一的通用火灾节点。这种简化是为了减少图构建的复杂性,并适应通常缺乏丰富属性注释的可用火灾记录的结构。然而,这种设计选择引入了重要的权衡。从建模的角度来看,将所有火灾事件抽象为一个节点意味着模型无法区分不同大小或强度的火灾。这些属性已知会影响火灾易发性的驱动因素,例如大型或高强度火灾可能与燃料负荷或干旱条件更为相关。
因此,这种简化可能会对易发性地图的可解释性产生影响。由于模型预测的是火灾发生的普遍可能性,而不对火灾类型或严重程度进行条件,从业者可能难以将预测输出与具体的火灾风险联系起来,或设计差异化的预防策略。例如,在小规模、人为引发的火灾占主导的地区,通用预测可能高估或低估实际的火灾风险模式,影响资源分配的准确性。此外,当前的设计限制了模型支持可操作火灾管理决策的能力。消防机构通常需要针对具体场景的见解,例如严重火灾可能发生的位置,或雷电引发的火灾较为常见的区域。无法区分火灾事件类型可能会限制该模型在这些情境下的实际应用价值。
为了应对这些担忧,未来的工作可以考虑在每个场景中引入多个火灾节点,每个节点包含事件级别的属性(如强度、规模和点火类型)。这种扩展将允许模型学习环境与火灾特征之间更细致的关系,实现更细致的易发性分析和更具体的管理建议。
我们的方法复杂性源于需要显式表示和建模异构环境变量之间的空间和上下文交互。现有的野火易发性方法,从传统的机器学习模型如逻辑回归、随机森林和MaxEnt,到更近期的深度学习架构如基于注意力机制的Transformer用于次季节到季节的预测,以及整合静态和动态预测因子的混合模型,通常共享一个共同的局限性:它们依赖于网格化或序列输入结构,每个空间单元被独立处理。虽然深度学习方法在传统模型之上提供了更强的表示学习能力,但它们仍然倾向于隐式地捕捉空间依赖关系,因此难以显式编码如植被连续性、土地利用相邻性或坡度与通路交互等关系结构。因此,传统和近期的方法通常能够实现较高的预测准确性,但在可解释性和关系表达能力方面存在限制。
野火的发生通常源于环境特征之间的复杂相互作用,这些相互作用并非仅仅是加法或独立的。例如,可燃植被的存在可能仅在与陡坡、低湿度和靠近道路共存的情况下显著增加野火易发性——这些是空间局部且上下文依赖的相互作用。在平铺特征向量中表示这样的复合配置通常需要特征工程或对交互结构的假设,这都会限制模型的泛化能力。
相比之下,我们的基于知识图谱的表示不仅编码了每个空间单元的环境属性,还编码了其与邻近单元和领域实体的拓扑关系。图神经网络的使用使得模型在训练过程中能够对这些连接进行推理,有效捕捉局部空间依赖关系和复合特征关系。这种结构化的建模框架提供了一个比统计关联更丰富的火灾场景抽象,包含了关系语义。虽然最终输出也可以由更简单的模型产生,但在涉及特征相互作用、空间配置和数据异构性的上下文中,我们的框架的内部推理和稳健性提供了显著的优势。此外,基于图的结构特别适合建模火灾传播和风险扩散,因为它允许明确表示空间相邻性和异构环境交互。与传统的网格化或统计方法不同,知识图谱可以通过关系链接编码动态依赖关系,如风对邻近坡度的影响或可燃植被的连续性。这种结构的丰富性促进了连接节点之间的信息传播,使火灾动态和影响路径的模拟更加现实。
因此,我们模型增加的复杂性不仅由其当前的表现所证明,还因其表示表达能力和未来在火灾风险分析中的可扩展性而得到合理化。
本研究引入了一种新的野火易发性分析方法,通过从多源异构环境数据构建知识图谱,并将野火场景形式化为异构图,有效捕捉了影响野火发生的复杂非线性空间关系。利用图神经网络,我们学习了野火场景的表示,从而实现了对野火易发性的准确预测。此外,我们的分析量化了各种环境因素对预测结果的贡献,增强了模型的可解释性。这不仅确保了对火灾风险根源的深入理解,还为野火管理与预防决策提供了更可靠的基础。
然而,仍存在一些局限性。首先,某些遥感数据的较低分辨率限制了某些环境特征在模型中的充分考虑,导致预测过程中出现遗漏。其次,火灾数据的质量还有待提高,因为一些火灾记录存在位置偏移,需要更详细的记录以更好地反映火灾在研究区域的分布。此外,时间跨度对环境因素的影响也需要考虑,因为不同火灾季节的特征可能有所变化,影响预测的准确性。已知影响火灾发生的一些气候变量,如温度、降水量、湿度和风速,未在本研究中明确纳入。这一省略部分归因于研究区域在火灾季节期间相对有限的地理范围,使得该区域内的气候条件相对均匀,使地形和土地覆盖特征成为更显著的预测因子。此外,缺乏高分辨率、空间对齐的气候数据限制了我们整合这些变量而不引入额外噪声的能力。
未来的研究将致力于将更广泛的环境类别(包括气候和气象变量)纳入模型,以更全面地捕捉研究区域的环境特征,从而提高预测的准确性和覆盖范围。我们还将专注于优化火灾数据的收集和记录,以提高模型反映野火分布的能力。此外,我们计划在建模过程中考虑时间特征,以增强模型在预测不同季节野火方面的性能,特别是在整合时间动态方面,这可能增强模型捕捉火灾驱动因素季节性变化的能力,从而为跨季节的野火管理与预防提供更可靠的基础。此外,未来改进可能包括扩展知识图谱中的火灾表示。而不是使用单一的通用火灾节点,引入具有强度、规模和点火类型的单个火灾事件节点,可以丰富图的语义结构,实现更细致、更具操作性的野火易发性评估。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号