填补温室气体排放数据缺口:基于大语言模型的可持续报告排放指标提取基准数据集

【字体: 时间:2025年08月28日 来源:Scientific Data 6.9

编辑推荐:

  本研究针对企业温室气体(GHG)排放数据存在碎片化、不一致且缺乏透明方法学的问题,开发了包含139份可持续报告中提取的排放指标的黄金标准数据集。研究人员采用LLM驱动的提取流程结合两级专家评审机制,建立了可验证的排放数据提取基准,为可持续金融领域的信息提取任务提供重要参考,具有支持绿色金融分析和反洗绿研究的重用价值。

  

在全球应对气候危机的背景下,企业级温室气体(GHG)排放数据已成为政策制定、金融监管和气候诉讼的关键依据。然而当前排放数据集普遍存在碎片化、不一致等问题,不同数据供应商对同一企业同一年份的Scope 3排放数据相关性甚至低至0.22。这种数据缺口严重制约了碳排放政策的评估效果和金融机构对气候风险的管控能力。更棘手的是,企业通过非标准化PDF报告披露的排放信息往往超过100页,且缺乏中央存储库,使得可靠数据的获取成为重大挑战。

针对这一难题,由Jacob Beck和Anna Steinberg等来自德国慕尼黑大学和慕尼黑机器学习中心的研究团队在《Scientific Data》发表了开创性研究。团队收集了139份企业可持续报告,创新性地结合大语言模型(LLM)提取与多级人工校验流程,构建了排放指标的黄金标准数据集。该研究不仅解决了可持续金融领域的关键数据缺口,更展示了如何通过合理分工降低对领域专家的依赖。

研究采用的关键技术包括:1)基于GPT-4的检索增强生成(RAG)管道,从PDF报告中提取Scope 1-3排放数据;2)设计严格的四要素标注规则确保数据可比性;3)建立非专家初审-专家复审-当面讨论的三级质量控制系统;4)对来自MSCI World Small Cap和DAX指数的132家企业报告进行分层抽样。

【数据记录】研究最终生成的黄金标准数据集包含5646条记录,每条记录对应特定企业某年份的排放指标。数据显示Scope 1排放平均每份报告出现3.33次,而Scope 2的市场基(location-based)与位置基(market-based)报告频率差异显著(2.94 vs 1.23)。值得注意的是,80%的排放值以表格形式呈现,这为自动化提取提供了便利。

【技术验证】团队实施了多层级数据校验机制:在非专家标注阶段,对缺失注释或行数异常的报告进行人工复查;专家阶段则通过双盲评审解决分歧。最终数据显示,97%的情况下专家会采纳至少一位非专家的判断,仅3%需要专家提出全新修正。

【使用方法】研究者提供了完整的R脚本和单位标准化方案,特别提醒注意PDF页码的非数字特征(如"Env33")。数据集通过Zenodo公开,包含原始报告URL和详细标注指南。

【研究意义】这项研究具有多重创新价值:首先,严格的四级标注规则(覆盖范围、运营边界、绝对值和总量要求)确保了数据的实质性分析价值;其次,证明了非专家在专家指导下可完成专业领域标注,大幅降低人工成本;最重要的是,该数据集为训练排放提取算法提供了首个可靠基准。研究揭示的标注挑战(如Scope 2默认归类规则)对完善GHG Protocol具有直接参考价值。

正如作者指出,该研究的局限在于样本量较小(139份报告),且Scope 3排放因企业自主定义"总量"而存在比较困难。但通过公开标注过程和完整元数据,该研究为后续大规模排放数据提取奠定了方法论基础,对推动企业碳排放透明化和气候金融发展具有重要意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号