一个基于大语言模型(LLM)的代理,用于构建台风知识图谱

《Environmental Modelling & Software》:A LLM-based agent for the construction of typhoon knowledge graphs

【字体: 时间:2026年01月09日 来源:Environmental Modelling & Software 4.6

编辑推荐:

  基于大语言模型的台风知识图谱构建方法与系统优化

  
易黄|熊琪霞|饶涛|焦东来|闵向强|郑洁颖|蒋玉婷|吴文军|杜佩军
南京大学地理与海洋科学学院,江苏省地理信息科学技术重点实验室,自然资源部陆地卫星遥感应用重点实验室,江苏省地理信息资源开发与应用协同创新中心,南京210023,中国

摘要

传统的知识图谱(KGs)由于误差累积和对复杂时空关系建模不足,难以整合分散的台风灾害数据。为了解决这个问题,我们提出了TyphoonKGent,这是一个由大型语言模型(LLMs)驱动的代理,它采用分层知识表示来结构化编码台风的演变和影响。它将KG构建分解为专门的任务(角色扮演、时空补全、实体对齐、生命周期确定、事件识别),并通过领域优化的思维链(CoT)生成来增强LLM在地理空间任务中的推理能力。TyphoonKGent通过对LLaMA/Qwen模型进行高效的LoRA基础微调构建而成,与非微调的基线模型相比,准确率提高了30%,在3次射击推理中的表现比DeepSeek-R1高出2%到5%。此外,可视化应用证实了其在轨迹分析、影响映射和实时决策支持方面的有效性。所提出的TyphoonKGent实现了端到端的KG构建,通过可定制的CoT实现了跨领域适应性,以及针对特定任务的微调和可扩展的动态更新,以用于灾害管理。

引言

随着信息技术的迅速发展,积累了大量的台风灾害数据。然而,这些灾害数据是分散和孤立的,使得提取有价值的灾害知识变得复杂。作为大规模语义网络的KG可以应用于台风灾害,促进海量数据的系统整合,并支持有效的灾害预防和缓解服务(张等人,2022年;周等人,2021年)。
然而,传统的KG构建本质上是复杂的,包括命名实体识别(NER)、关系提取和知识融合等子任务(Gür等人,2017年)。在这个过程中,多个机器学习模型被组合成一个流水线来完成任务(图1(a))。这种模块化程序由于不同模块之间的顺序依赖性而引入了误差累积。上游任务中的错误将不可避免地通过下游任务传播和放大,导致实体链接不完整、关系推断有偏以及语义不一致。更重要的是,传统方法将不同任务孤立起来,忽略了基于链的推理的可能性。因此,迫切需要重新构想台风KG的构建过程,使其成为一个统一的、端到端的过程,将非结构化文本转换为结构化知识。
大型语言模型(LLMs)的出现为实现这一目标提供了很好的机会。LLMs具有强大的上下文理解能力,能够捕捉实体之间的复杂关系,并且可以通过微调、少样本学习甚至零样本学习快速适应特定领域任务。与传统的多步骤独立程序相比,LLMs可以将这一过程转变为集成方式(图1(b))。然而,这一过程的实施取决于解决两个主要问题,即如何将LLMs与台风KG构建中的不同任务对齐,以及如何提高LLMs的性能。因此,我们提出了一个由三个相互连接的步骤组成的框架,如图2所示。具体来说,第一步专注于分析台风知识的核心概念并构建以台风为中心的知识表示模型。第二步集中生成CoT,这是一种增强LLMs推理能力的技术。整个CoT包括角色扮演、时空知识补全、地理实体对齐、生命周期确定和灾害事件识别。第三步包括对LLMs进行微调并开发相应的TyphoonKGent。以下手稿的结构如下:第2节介绍相关工作。第3节详细阐述了相关方法,包括灾害知识表示、CoT生成和LLMs微调。第4节展示了实验数据、设置和结果。第5节讨论了我们研究的贡献和局限性。第6节总结了研究发现并概述了未来的工作。

相关研究

相关工作

现有的地理数据服务面临着“数据量大、信息爆炸性增长,但知识稀缺”的困境(周等人,2021年)。开发TyphoonKG对于改进智能灾害服务非常重要。到目前为止,关于TyphoonKG的研究仍处于早期阶段。它属于地理知识图谱(GeoKG)的更广泛类别,需要关注时空特征(Dsouza等人,2021年)。因此,对GeoKG的研究可以提供宝贵的见解

与台风相关的知识建模

知识表示是知识应用的基础和前提。为了将广泛存在的非结构化知识转换为实用的结构化资源,理解并重建与台风相关的知识框架至关重要。基于现有的台风灾害研究(王等人,2023年;叶等人,2024年;叶等人,2021年),我们将台风对象的发展过程分为两个主要阶段:演变和影响。

数据收集

大量的研究在多个平台上积累了多种格式的数据。在这项研究中,我们主要利用了来自维基百科、百度百科和中国气象局的网页文本数据来构建TyphoonKG。此外,由于过去三十年台风的分类发生了变化,我们参考了中国的国家标准GB/T 19201-2006 热带气旋等级,该标准首次将超级台风定义为一个独特的类别

方法的跨领域适应性和数据来源的多样性

尽管本研究提出的方法主要关注台风灾害领域,但它也可以有效地应用于其他自然灾害,如地震、极端降水、干旱和野火。每种灾害都有其独特的动态、影响范围和社会经济后果,因此在应用该方法时需要构建相应的知识表示框架。这样的框架应包括核心实体

结论

台风因其破坏性影响而受到了广泛关注。KGs为存储、管理和可视化灾害信息提供了一种新的方法,为自然灾害研究和灾害预防服务创造了新的可能性。因此,高效且简化的TyphoonKG构建对于提升智能台风灾害服务的能力具有重要意义。
为了实现这一目标,我们提出了分层知识表示模型

补充材料

本文的数据和代码可以在线找到:https://github.com/2BAIHAO/LLM4TyphoonKG.git

CRediT作者贡献声明

吴文军:验证。蒋玉婷:形式分析。杜佩军:写作 – 审稿与编辑、验证、资金获取、概念化。郑洁颖:形式分析、数据管理。闵向强:验证、形式分析。焦东来:方法论、形式分析。易黄:写作 – 原始草案、验证、方法论、资金获取、形式分析、数据管理、概念化。饶涛:写作 – 审稿与编辑、验证、方法论、概念化。

未引用的参考文献

Ding等人,2023年;李和梁,2021年;张等人,2023年。

软件和数据可用性

软件名称:LLM4TyphoonKG
开发者:易黄、熊琪霞和蒋玉婷
联系信息:huangyi@njupt.edu.cn
首次可用日期:2025年4月5日
编程语言:Python
文档:有关应用程序安装、测试和部署的详细说明可以在https://github.com/2BAIHAO/LLM4TyphoonKG/blob/main/visual-analysis/README.md找到
所有实验数据可以在https://github.com/2BAIHAO/LLM4TyphoonKG下载

利益冲突

作者声明没有利益冲突。

资金信息

本研究得到了国家自然科学基金的支持,资助编号为42401570、42330106;自然资源要素耦合过程与效应重点实验室的开放基金,资助编号为2024KFKT020;以及国家重点研发计划,资助编号为2022YFC3800802。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

致谢

作者感谢期刊编辑和审稿人的宝贵建议,这些建议在提高本文质量方面发挥了重要作用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号