面向气候变化文本分析的语言模型:技术综述与应用展望
《Environmental Data Science》:Language models for the analysis of and interaction with climate change documents
【字体:
大
中
小
】
时间:2025年12月13日
来源:Environmental Data Science 1.7
编辑推荐:
本文综述了自然语言处理(NLP)和机器学习(ML)领域如何利用各种规模的语言模型(LM)处理海量气候变化文本数据。研究系统梳理了针对气候变化领域开发的领域专用LM及基于通用大语言模型(LLM)的系统,重点分析了其在文本分类、问答、摘要等任务中的架构设计、训练数据、评估方法与可访问性,为气候变化研究者提供了重要的工具选型参考,并指出了在高风险场景中部署LM技术的未来研究方向。
随着全球气候变化议题日益受到关注,相关文本数据呈现爆炸式增长。根据研究显示,2001年至2021年间,带有“气候变化”标签的科学论文年发表量从4,145篇激增至41,093篇,增长近十倍。这种数据量的急剧增加对高效、可靠的处理和分析方法提出了迫切需求。传统的信息处理方式已难以应对如此大规模的非结构化文本数据,研究人员开始将目光投向自然语言处理(NLP)和机器学习(ML)技术,特别是近年来快速发展的语言模型(LM)。
在这一背景下,Transformer深度学习架构的引入和计算资源的不断增加,推动了基于Transformer的语言模型在各类NLP任务中的应用,包括处理气候相关文本。2022年底ChatGPT的公开发布及其迅速普及,进一步将研究焦点从文本分类任务转向文本生成和操作任务,如用户问答和长文本摘要。
气候变化文本数据的NLP和ML方法最初主要在领域无关的ML和NLP会议和期刊上发表,旨在展示新工具、方法论、框架、数据收集或数据标注方法。近年来,出现了专门关注人工智能(AI)、ML与气候变化交叉研究的新倡议,以及开发社会责任感NLP工具的倡议,旨在激励研究者探索ML和AI如何帮助解决与社会相关的问题,特别是在NLP研究中被忽视的领域。
本文系统综述了气候变化领域专用的语言模型和基于LM的系统,重点关注它们在分类气候变化文本、帮助分析任务(输入和输出均为自然语言文本)或通过使用文本文档集合作为相关信息库来回答问题方面的功能。研究涵盖了领域专用语言模型(如ClimateGPT和ClimateBERT家族)以及基于通用语言模型的系统(如ChatClimate和ChatNetZero),详细分析了它们的设计动机、功能、目标用户、架构、开发数据、评估方法及可访问性。
研究人员为开展这项研究,主要采用了以下几种关键技术方法:首先进行领域自适应预训练,使用气候变化领域的专业语料库(包括IPCC报告、科学出版物、企业气候报告等)对基础模型进行继续训练;其次采用指令微调技术,使用人工标注的指令-完成对数据集优化模型在特定任务(如问答、文本分类)上的表现;同时集成检索增强生成(RAG)框架,将外部知识库与语言模型结合,减少模型幻觉并提高事实准确性;在模型架构选择上,涵盖了编码器-解码器架构(如BART用于文本摘要)、仅编码器架构(如BERT系列用于文本分类)和仅解码器架构(如GPT系列用于文本生成);此外还使用了知识蒸馏技术创建更轻量化的模型,以及人类专家评估和LLM-as-a-judge等自动评估方法确保模型输出质量。研究数据主要来源于公开可获取的气候变化科学文献、企业可持续发展报告、政策文档和专业数据库(如OpenAlex、Climate Watch等)。
领域专用语言模型
ClimateGPT模型家族
ClimateGPT是一个包含五个大型语言模型的家族,专门为气候变化问答任务设计。这些模型基于Transformer架构,采用两种领域特定的预训练方法:从头开始预训练(FSPT)和继续预训练(CPT)。研究人员使用了3000亿个标记的气候、人道主义和科学内容语料库,以及42亿个标记的手工挑选的气候变化数据进行训练。模型在ClimaBench等气候专用数据集和通用基准测试上进行了评估,结果表明其在气候变化相关任务上优于相同规模的通用模型。特别是ClimateGPT-70B在人类评估中获得了最高排名,幻觉实例最少。该模型家族还集成了检索增强生成(RAG)功能,可以访问IPCC报告等最新文档,克服了知识截止日期的限制。
ClimateBERT模型家族
ClimateBERT家族包含四个基础模型和九个针对气候变化文本分类任务进行微调的模型,主要侧重于段落和句子级别的分类任务。这些模型基于DistilRoBERTa-base,通过领域自适应预训练在代表气候相关语言的205万个段落的大型语料库上进行训练。模型在气候变化检测、情感分析、特异性分类等任务上表现出色,显著优于传统机器学习基线模型。特别是climatebert/distilroberta-base-climate-detector模型在检测段落是否与气候相关方面达到了0.97的F1分数。该模型家族还提供了句子级别的分类功能,包括环境声明检测、过渡与物理风险分类等专门任务。
基于通用语言模型的系统
问答系统
ChatClimate系统基于GPT-3.5 Turbo和GPT-4构建,专门用于回答气候问题。系统通过将IPCC第六次评估报告等权威文献处理成向量数据库,实现基于事实的问答。评估显示,ChatClimate在回答不同难度气候问题时,相比纯GPT-4具有更低的幻觉率。系统提供三种模式:仅使用GPT-4、仅使用IPCC报告(ChatClimate)以及混合使用报告和模型内部知识(Hybrid ChatClimate)。
My Climate Advisor系统针对农民和农业顾问群体开发,集成了130万篇农业和食品科学文献以及12.6万篇气候适应文章的专业知识库。系统在回答澳大利亚气候变化影响和适应问题时,虽然在某些维度上不如GPT-4 Turbo,但在引用准确性方面表现更优。这一系统展示了专业领域知识库与语言模型结合在特定应用场景中的价值。
问答与评分系统
CHATREPORT系统专注于分析企业可持续发展报告,计算报告与气候相关财务披露工作组(TCFD)指南的符合性分数(0-100分),同时提供用户自定义的分析与问答功能。系统采用使模型答案可追溯的技术,通过为源文本编号来减少幻觉现象。评估发现,ChatGPT在“诚实性”方面达到86.63%,显著高于GPT-4的51.5%,表明不同模型在事实准确性方面存在显著差异。
研究结论与意义
本综述表明,语言模型在气候变化文本分析领域已形成较为完善的技术体系。从模型类型看,领域专用模型(如ClimateGPT、ClimateBERT)通过领域自适应训练在特定任务上表现优异,而基于通用语言模型的系统(如ChatClimate)则利用现有强大模型的推理能力,结合领域知识库实现快速部署。从应用场景看,这些工具已覆盖文本分类、问答、摘要、事实核查等多种任务,支持科研、政策制定、企业披露等不同应用场景。
研究还揭示了当前面临的挑战和未来方向。在模型评估方面,缺乏标准化的人类评估指南和任务导向的环境影响评估框架,使得不同系统间的比较存在困难。在模型可访问性方面,虽然多数模型公开可用,但大型模型的运行仍需要昂贵的基础设施,限制了更广泛的应用。此外,多语言支持和事实准确性仍是需要持续改进的方向。
气候变化作为高风险领域,对语言模型的可靠性要求极高。研究人员需要更加关注如何确保模型输出的准确性和可追溯性,特别是在政策制定和企业决策等关键应用中。同时,模型开发的环境成本也需要更加透明的报告和考量。
这项研究为气候变化研究者提供了重要的技术路线图,既展示了当前语言模型在该领域应用的最新进展,也为未来研究指明了方向。随着技术的不断发展和更多领域专用数据的积累,语言模型有望在气候变化研究、政策制定和公众教育中发挥更加重要的作用,为应对全球气候危机提供有力的技术支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号