编辑推荐:
现有灾害数据库缺乏山洪事件中受影响社区和基础设施等细节,为填补这一空白,研究人员开发 FF-NER 模型,从网络文本中提取 8 类实体。实验显示其优于基线模型,能为分析和丰富数据库提供支持,助力相关领域工作。
山洪灾害因其突发性和破坏性,一直是全球范围内的重大威胁。在美国,2000 至 2019 年间,山洪导致的死亡、受伤和财产损失分别占洪水相关灾害的近 70%、72% 和 72%。随着城市化进程加快和气候变化加剧,山洪风险预计将进一步上升。然而,现有的灾害数据库往往缺乏关于受影响社区、基础设施等关键细节信息,如街道封闭、停电情况、货币损失等,这些信息对于制定有效的减灾策略和基础设施韧性规划至关重要。为了填补这一信息缺口,研究人员亟需开发一种能够从海量网络文本中自动提取相关关键信息的工具。
在这样的背景下,来自相关研究机构的研究人员开展了关于命名实体识别(NER)模型的研究,旨在开发一个专门用于挖掘山洪及其相关基础设施影响网络信息的模型。该研究成果发表在《International Journal of Disaster Risk Reduction》上。
研究人员开发了 FF-NER 模型,这是一种定制化的命名实体识别模型,可从各种与山洪相关的网络文本中提取特定信息,涉及的 8 类实体包括:地区(Region)、街道(Street)、位置(Location)、县(County)、水体(Water Body)、货币损失(Monetary Damage)、停电(Power Outages)和基础设施服务(Infrastructure Services)。
研究人员主要采用了以下关键技术方法:首先,精心策划了一个包含 2670 个与山洪相关的网络段落的数据集,其中训练和验证集有 2170 个段落,测试集有 500 个段落,这些段落来自 FF-BERT 数据集,该数据集详细记录了美国 2010 年以来 500 起历史山洪事件的损害或影响。然后,对传统和先进的 NER 技术进行了实验,测试的模型包括条件随机场(CRF)、双向 Transformer 编码表示(BERT)、蒸馏 BERT(DistilBERT)、鲁棒优化 BERT 预训练方法(RoBERTa)和 Meta AI 大语言模型(LlaMa2),并以 spaCy NER 模型作为基线进行对比。
结果
通过在测试集上的评估,FF-NER 模型表现出色。与基线模型相比,其准确性、精确性、召回率和 F1 分数分别提高了 4.6%、7.1%、4.6% 和 9.35%。此外,研究还对各模型的训练时间和推理时间进行了比较分析,为模型的实际应用提供了参考。
FF-NER 在实践中的应用
研究人员以 2010 至 2019 年德克萨斯州特拉维斯县的山洪事件为例进行了案例研究。特拉维斯县位于德克萨斯州中部的山洪多发带,由于其独特的地形和气候,容易遭受频繁而严重的山洪灾害。案例研究表明,FF-NER 能够从相关网络文本中有效提取关键实体信息,揭示过去事件的新见解和影响模式,为深入分析山洪灾害和丰富现有数据库提供了有价值的信息。
结论
FF-NER 模型的开发和验证为山洪灾害研究和管理提供了重要的工具。该模型能够自动从网络内容中识别 8 类信息类别,与 FF-IR 和 FF-BERT 模型无缝集成,形成了一个利用自然语言处理技术从网络获取山洪洞察的模型管道。FF-NER 有助于研究人员、决策者、应急响应人员和公共工程官员更好地了解山洪动态,获取和利用基于网络的过去山洪事件信息,从而制定基于证据的政策,保护社区安全,提升基础设施的抗灾能力。尽管本研究取得了显著成果,但未来仍可在模型优化、数据扩展等方面进一步探索,以更好地应对不断变化的山洪灾害挑战。