利用计算语言学分析巴黎气候承诺的内容

《巴黎协定》是全球应对气候变化的重要框架,各国通过提交国家自主贡献(Nationally Determined Contributions, NDCs)来明确其气候行动目标和策略。尽管现有研究主要集中在评估NDCs中的减排目标,但NDCs文件中包含的广泛文本内容却鲜有系统分析。这些文本内容不仅涉及减排目标,还包括国家背景、实施计划、公平性和透明度等多方面的信息。然而,NDCs的透明度和可比性不足,尤其是关于具体政策、融资和适应措施的细节,这使得全球气候目标的实现面临挑战。为此,Ivan Savin、Lewis C. King和Jeroen van den Bergh等人利用自然语言处理技术(Natural Language Processing, NLP)对NDCs的全文内容进行了系统性分析,旨在揭示NDCs中的深层话语,并探讨不同国家在气候行动中的关注点和演变趋势。

论文来源

该论文由Ivan Savin(ESCP商学院、巴塞罗那自治大学环境科学与技术研究所)、Lewis C. King(巴塞罗那自治大学环境科学与技术研究所)和Jeroen van den Bergh(巴塞罗那自治大学环境科学与技术研究所、阿姆斯特丹自由大学)共同撰写,于2025年3月发表在《Nature Sustainability》期刊上,文章标题为《Analyzing Content of Paris Climate Pledges with Computational Linguistics》。研究得到了欧洲研究委员会(ERC)的资助,并隶属于西班牙科学与创新部的“María de Maeztu”卓越计划。

研究流程

1. 数据收集与预处理

研究团队从Climate Watch平台和《联合国气候变化框架公约》(UNFCCC)NDC注册表中获取了截至2023年5月31日的所有NDCs文件。共收集了309份NDCs,其中包括167份首次提交的NDCs和142份更新版本。对于非英语文件,研究团队使用DeepL翻译服务将其转换为英语。数据预处理包括分词、去除标点符号和停用词、词形还原(lemmatization)以及生成双词序列(bi-grams)。最终,研究团队构建了一个包含7,599个独特单词和539,902个词频的数据集。

2. 主题建模(Topic Modelling)

研究采用结构主题模型(Structural Topic Modelling, STM)对NDCs文本进行分析。STM是一种结合自然语言处理和机器学习的主题建模方法,能够将文本聚类为不同的主题,并根据文档特征(如国家GDP、排放强度等)进行主题分布的统计分析。为了克服文本数量有限的问题,研究团队将每份NDC分割为约1,000字的文本块,共生成1,280个文本块。通过STM模型,研究团队识别出21个主题,并将其归纳为7个主题组。

3. 主题分析与聚类

研究团队计算了每份NDC中21个主题的分布比例,并根据主题分布的相似性对167个国家进行了聚类分析。使用欧几里得距离和层次聚类法,研究团队将国家分为9个集群。此外,研究团队还通过回归分析探讨了主题分布与国家特征(如GDP、排放强度、脆弱性等)之间的关系。

主要结果

1. 主题识别与分布

研究识别出的7个主题组及其占比分别为:发展(25%)、实施与规划(21.5%)、减排目标(20.3%)、政策与技术(11.3%)、气候变化影响(10.7%)、农业与生态系统(7.4%)以及利益相关者(3.8%)。其中,发展主题组涵盖可持续、经济和农村发展,是NDCs中最主要的内容。减排目标主题组则集中在温室气体核算、排放情景和目标报告等方面。

2. 国家聚类分析

根据主题分布,研究团队将国家分为9个集群。例如,澳大利亚、加拿大和英国等国家组成的集群(C1)重点关注政策与技术;而欧盟和美国等国家组成的集群(C2)则更侧重于减排目标。发展中国家如巴西、印度和小岛屿国家(SIDS)则更多关注可持续发展和气候变化影响。

3. 主题与国家特征的关系

回归分析显示,高GDP国家更关注减排目标,而发展中国家则更多讨论发展和适应问题。例如,石油输出国组织(OPEC)国家更强调经济发展,而小岛屿国家则更多关注气候变化的脆弱性。

4. NDCs更新过程的变化

研究发现,更新后的NDCs在透明度和具体性方面有所提高,尤其是在减排目标和政策细节的描述上。然而,国际支持和绿色能源技术等主题的关注度有所下降,这可能是因为更新后的NDCs将重点扩展到了其他领域。

研究结论

该研究通过自然语言处理技术系统分析了NDCs的全文内容,揭示了各国在气候行动中的关注点和演变趋势。研究发现,NDCs的内容远不止减排目标,还包括发展、适应和实施等多方面的信息。高收入国家更关注减排目标,而发展中国家则更多将NDCs视为可持续发展的一部分。研究还指出,NDCs的透明度和可比性不足,建议通过标准化格式提高NDCs的可信度和透明度。

研究亮点

  1. 系统性分析:首次利用自然语言处理技术对NDCs的全文内容进行系统性分析,填补了现有研究的空白。
  2. 主题识别与聚类:识别出21个主题并将其归纳为7个主题组,为理解NDCs的内容提供了新的视角。
  3. 国家特征与主题关系:通过回归分析揭示了主题分布与国家特征之间的关系,为制定差异化气候政策提供了依据。
  4. NDCs更新过程的演变:研究发现更新后的NDCs在透明度和具体性方面有所提高,为评估气候行动进展提供了重要参考。

研究意义

该研究不仅为理解NDCs的内容提供了新的工具和方法,还为全球气候政策的制定和评估提供了重要依据。通过提高NDCs的透明度和可比性,研究有助于缩小《巴黎协定》目标与实施进展之间的差距,推动全球气候行动的落实。