基于大语言模型的美国人工增雨活动结构化数据集(2000-2025)及其在环境科学中的应用
《Scientific Data》:Structured dataset of reported cloud seeding activities in the United States (2000–2025) using an LLM
【字体:
大
中
小
】
时间:2025年12月12日
来源:Scientific Data 6.9
编辑推荐:
为解决美国人工影响天气活动数据分散、格式不统一的问题,研究人员利用OpenAI o3大语言模型开发了多阶段PDF文本提取流程,从832份NOAA历史报告中构建了2000-2025年人工增雨活动的结构化数据集。该数据集涵盖项目名称、年份、季节、州、操作者、播云剂、装置、目的等12个字段,准确率达98.38%,为分析天气修改实践提供了重要数据基础,展示了LLM在历史环境文档挖掘中的潜力。
在美国西部,自20世纪40年代以来,人工增雨作为一种天气修改技术一直被用于增加降水量。然而,尽管有《1972年天气修改报告法案》要求相关方提交活动报告,但这些记录以分散、格式不统一的扫描PDF形式存在,缺乏标准化结构,使得大规模分析变得困难。这种数据可及性不足限制了研究人员对人工影响天气长期模式、不同播云剂和使用方法的演变,以及地理和季节趋势的深入探索。
为了填补这一空白,哥伦比亚大学的Jared Joseph Donohue和Kara D. Lamb在《Scientific Data》上发表了一项研究,他们利用大语言模型(LLM)技术,创建了一个涵盖2000年至2025年美国人工增雨活动的结构化数据集。这项研究不仅解决了数据访问难题,还展示了LLM在从历史环境文档中提取结构化信息方面的潜力。
研究人员开发了一个多阶段的PDF到文本提取流程,结合OpenAI的o3大语言模型,处理了来自美国国家海洋和大气管理局(NOAA)的832份历史报告。这些报告包括Form 17-4(天气修改活动初始报告)和Form 17-4A(中期活动报告和最终报告),是监管要求的公开提交文件。预处理阶段,他们使用pymupdf、pytesseract和llm-whisperer等技术将PDF转换为纯文本,并合并了同一项目的多个提交文件。随后,通过精心设计的提示(采用思维链推理方式),LLM分析了提取的文本和文件名,合成了12个关键元数据字段,包括项目名称、年份、季节、州、操作者隶属关系、播云剂、装置、目的、目标区域、控制区域、开始日期和结束日期。后处理阶段包括数据清理、格式化以及去除重复项。
数据集包含832个独特的人工增雨项目记录,以CSV格式在Zenodo上公开可用。数据显示,人工增雨活动在地理上集中在水资源依赖积雪的西部州,如加利福尼亚州、科罗拉多州和犹他州,德克萨斯州的夏季增雨活动也贡献了大量记录。主要目的是增加积雪,其次是增加降水和降雨。银碘化银(silver iodide)是最常见的播云剂,尤其是在地面和空中操作中;地面部署是最普遍的部署方法。活动数量在2000年代初期至中期达到峰值,然后在2010年代下降,之后在2024年和2025年出现反弹。
技术验证通过手动审查200个随机抽样的记录来评估提取准确性,总体平均准确率达到98.38%。不同字段的准确率各异,例如项目、年份和季节字段达到100%,而控制区域字段为92%。研究人员还比较了多种LLM(如gpt-4.1、gpt-4.1-mini、gpt-4o-mini、o4-mini和o3),发现o3推理模型准确率最高(96.33%)。提示工程实验表明,采用思维链推理的提示(Prompt C)能显著提高提取准确性(95.00%)。
这项研究成功创建了一个高精度的人工增雨活动结构化数据集,为研究长期天气修改模式、播云剂和部署方法的演变以及地理和季节趋势提供了宝贵资源。它展示了LLM在从异构格式的历史文档中提取科学数据的强大能力,并提供了一个可扩展的框架,可用于其他政府授权的环境报告系统,如水使用、空气质量监测或土地管理。此外,该数据集为评估天气修改的环境和气象影响提供了历史背景,有助于应对日益增长的环境兴趣。然而,需要注意的是,数据基于自我报告,可能不完整,且NOAA目前公开的记录仅覆盖2000-2025年。未来如果恢复更早的记录,该提取管道可轻松扩展以增加时间覆盖范围。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号