联合国气候谈判参与、合作与冲突数据集:基于地球谈判公报的自动编码算法与验证

《Scientific Data》:Participation, Cooperation and Conflict in UN Climate Negotiations

【字体: 时间:2025年12月17日 来源:Scientific Data 6.9

编辑推荐:

  本研究开发了一种自动编码算法,从地球谈判公报(ENB)中提取1995-2023年联合国气候变化框架公约(UNFCCC)谈判中的参与、合作与冲突数据。通过构建包含201个缔约方和43个集团别名的词典,结合定制词性标注和正则表达式,成功提取57,375次干预和86,763次互动。与人工编码数据集对比验证显示,虽然自动编码识别较少的反对互动(4.7% vs 16.4%),但关键参与者和互动模式的分布高度一致,为气候谈判研究提供了可靠的大规模数据资源。

  
在全球气候治理的复杂棋局中,各国代表每年聚集在联合国气候变化框架公约(UNFCCC)的谈判桌前,就关乎人类未来的气候行动进行激烈磋商。这些谈判具有独特的运作逻辑:198个缔约方通过共识决策,没有投票记录可循;代表们组成各类集团协调立场,从正式全会到非公开接触小组,谈判形式多样且透明度各异。理解谁在何时、以何种方式参与这些谈判,如何形成合作联盟或冲突对立,成为解码全球气候治理动态的关键。
然而,系统研究气候谈判过程长期面临数据匮乏的挑战。虽然国际可持续发展研究所(IISD)发布的地球谈判公报(ENB)提供了近三十年的谈判记录,但手工编码这些海量文本既耗时又容易产生主观偏差。正是在这一背景下,由苏黎世应用科学大学Paula Castro和洛桑联邦理工学院Victor Kristof领衔的研究团队,在《Scientific Data》上发表了开创性的研究成果,推出了首个覆盖1995-2023年UNFCCC谈判的自动编码数据集。
研究团队开发了名为"enb-mining"的Python软件包,通过多词分词、定制词性标注和正则表达式匹配三大技术支柱,实现了对ENB文本的智能解析。算法首先构建了包含201个缔约方和43个谈判集团的别名词典,解决了诸如"G77/China"等实体名称变体的识别问题。接着,研究团队设计了专门的标签体系:标记缔约方,标记集团,标记"代表"关系,标记支持,标记反对,标记 agreement。通过精心设计的正则表达式模式,算法甚至能够解析"挪威,得到澳大利亚和欧盟支持,但遭到巴西、中国、印度和肯尼亚反对"这样的复杂句式,准确提取多层互动关系。
研究团队还利用ENB的标题结构,将干预和互动数据与具体的谈判机构和议题领域相关联。通过识别h2、h3、h4等多级标题以及加粗、斜体等格式标记,成功对99.3%的干预标注了相应的谈判情境信息。基于关键词的分类方法进一步将讨论内容归入减缓、适应、资金等65个议题领域,为深入分析谈判动态提供了多维视角。
数据验证揭示算法优势与局限
为确保数据质量,研究团队将自动编码结果与2012-2015年间手工编码的数据集进行了系统对比。手工编码由苏黎世大学研究团队完成,覆盖1995-2013年谈判记录,采用相似的编码框架但允许跨句子解读谈判互动。
验证结果显示,自动编码识别出38,339次互动,远少于手工编码的61,546次。这一差异主要源于分析单元的不同:算法仅限单句内基于语法结构的互动识别,而人工编码者能够跨句子甚至段落解读隐含的互动关系。特别值得注意的是,反对类互动在自动编码中仅占4.7%,而手工编码达到16.4%。
深入分析表明,61.5%未被自动编码识别的反对互动需要基于内容实质(而非语法标记)进行判断,17.4%分布在多个句子中但含有明确标记。尽管数量存在差异,两种方法识别的互动类型分布高度相似,且随时间变化趋势一致。
关键参与者与互动网络的高度一致性
更令人鼓舞的是,两种方法在识别关键谈判参与者方面表现出高度一致性。自动编码识别出209个发送者和208个目标者,与手工编码的212个发送者和214个目标者高度重叠,独特实体比例均低于5.1%。
对最活跃参与者的分析显示,欧盟、美国、日本、澳大利亚、加拿大、中国和沙特阿拉伯在两种数据集中均位列前十,G77/中国集团在冲突互动中表现突出。就谈判对子而言,美国-欧盟、美国-澳大利亚等发达国家组合在合作互动中占主导,而欧盟-G77、美国-G77等南北对子则在冲突互动中最为突出。
议题特异性谈判动态揭示有趣模式
数据集还支持针对特定议题领域的深入分析。以2015年(巴黎协定达成之年)为例,研究发现减缓议题的讨论呈现明显两极分化,多个小集团与主要网络完全分离,美国、欧盟等主要发达国家与发展中国家缺乏直接联系。相比之下,适应议题的讨论网络更加紧密,发达国家与发展中国家之间的联系更多,最不发达国家(LDCs)和小岛屿国家联盟(AOSIS)等脆弱国家在适应讨论中扮演更核心角色。
研究意义与数据应用前景
这项研究的意义不仅在于提供了迄今为止最全面的UNFCCC谈判数据集,更在于建立了一套可复制的自动编码方法,可扩展至ENB覆盖的其他50多个可持续发展或环境相关政府间机构的谈判分析。数据集支持多种研究路径:学者可分析特定国家或集团在不同时期、不同议题领域的参与策略演变;运用社会网络分析方法探究合作冲突网络的结构特征;或考察集团政治对个体国家发言权的影响。
尽管自动编码在识别跨句互动方面存在局限,特别是对反对类互动的捕获不足,但技术验证表明数据集在互动分布、关键参与者识别和核心互动对子方面具有高度代表性。这意味着虽然不适合直接比较合作与冲突互动的绝对数量,但用于分析反对互动内部模式或特定参与者行为时依然可靠。
研究团队将数据集、代码本以及完整的编码算法在SWISSUBase数据库和GitHub平台公开,支持其他研究者直接使用这一宝贵资源或将其应用于相关环境谈判研究。随着人工智能技术的进步,未来结合更强大的语言模型解决指代消解问题,有望进一步提升自动编码的覆盖面和准确性,为理解全球环境治理提供更加精细的数据支撑。
这项研究标志着气候谈判分析从个案深度描述向系统比较研究的重要转变,为解码全球气候治理的复杂动态开启了新可能。在气候危机日益严峻的今天,深入理解国际合作的形成机制,比以往任何时候都更加重要。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号