芬兰议会百年演讲数据集:政治极化、媒体效应与代表机制的量化研究

【字体: 时间:2025年06月24日 来源:Scientific Data 5.8

编辑推荐:

  研究人员构建了覆盖1907-2018年的芬兰议会演讲全量数据集,通过文本挖掘技术分析政治极化演变、媒体透明度对议员行为的影响及政党内部差异。研究发现左翼与右翼政党分歧在1970年代达峰(受苏联立场驱动),而电视转播(1988年引入)加剧了政府与反对党间的演讲差异。该数据集经OCR提取和正则表达式结构化处理,包含原始文本与标准化版本,为政治话语研究提供百年跨度的标准化数据支持。

  

在政治学研究领域,议会演讲数据被视为揭示民主政治动态的"金矿",但长期面临两大挑战:历史数据的完整性和跨时期可比性。芬兰作为北欧民主国家的典型代表,其议会制度自1907年建立以来经历了帝国统治、世界大战和数字化变革,却从未有研究系统整合其百年演讲数据。更关键的是,现有研究多局限于投票记录分析,而受制于芬兰严格的政党纪律(party discipline),投票数据难以真实反映议员个体立场。这一空白使得政治极化(polarization)、媒体效应等核心议题缺乏长期实证依据。

来自瑞典Wolt公司、图尔库大学和经济研究所(Labore)的Salla Simola、Jeremias Nieminen和Janne Tukiainen团队在《Scientific Data》发表了首个覆盖芬兰议会112年(1907-2018)的演讲数据集。研究通过分析39万条演讲记录发现:左翼与右翼政党语言差异在冷战时期的1970年代达到历史峰值(主要源于对苏联政策分歧),而电视转播的引入使政府与反对党演讲差异显著扩大15%。该数据集首次实现从帝俄时期到数字时代政治话语的纵向追踪,为比较政治学研究提供了新基准。

关键技术方法包括:1)从议会官网获取1907-2000年扫描件和2001-2018年PDF原始记录;2)采用pdf2text工具结合正则表达式(regex)进行文本结构化(如识别"Keskustelu"讨论起始标签);3)通过语言检测(langdetect)和词干提取(stemming)标准化文本;4)议员特征数据与演讲记录通过唯一ID(speaker_id)关联,包含性别、选区等38个维度元数据。

数据记录与验证
数据集包含两个核心表格:parliamentary_speeches.csv记录演讲文本(含原始OCR输出和清洗后版本),mps-ministers.csv包含议员背景特征。技术验证显示,1967年质询时段(question hour)改革后,演讲数量激增300%而平均长度下降60%(图1),与历史制度变革高度吻合。

议员特征数据也准确反映了芬兰政治生态变迁:女性议员比例从1907年的0%升至2018年的42%,高等教育背景议员增长3倍(图2),验证了数据的可靠性。

研究结论与意义
该研究突破性地实现了三个维度的创新:时间跨度上,首次涵盖芬兰议会完整历史周期,包含1915-1916年议会停摆等特殊时期;方法学上,通过正则表达式和自动纠错系统(corr_name字段)解决历史OCR错误问题;应用价值上,数据集已用于三项重要发现——量化政治极化曲线、证明电视转播扩大政府-反对党分歧(β=0.23, p<0.01)、揭示农业党(Maalaisliitto)更名对议员话语的影响。

相比同类项目如ParliamentSampo,本研究的核心优势在于数据"即用性"(analysis-ready):所有文本已完成词干提取和停用词过滤,议员特征与演讲记录实现一键关联。这为政治学、计算社会科学(computational social science)研究提供了从微观(议员个体)到宏观(世纪趋势)的分析可能,特别是为选举制度改革(如开放名单制open-list system)效果评估建立了新范式。数据集已通过Figshare公开(DOI:10.6084/m9.figshare.28028732),其多语言(芬兰语/瑞典语)特性也为北欧比较政治研究开辟了新路径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号