
-
生物通官微
陪你抓住生命科技
跳动的脉搏
芬兰议会百年演讲数据集:政治极化、媒体效应与代表机制的量化研究
【字体: 大 中 小 】 时间:2025年06月24日 来源:Scientific Data 5.8
编辑推荐:
研究人员构建了覆盖1907-2018年的芬兰议会演讲全量数据集,通过文本挖掘技术分析政治极化演变、媒体透明度对议员行为的影响及政党内部差异。研究发现左翼与右翼政党分歧在1970年代达峰(受苏联立场驱动),而电视转播(1988年引入)加剧了政府与反对党间的演讲差异。该数据集经OCR提取和正则表达式结构化处理,包含原始文本与标准化版本,为政治话语研究提供百年跨度的标准化数据支持。
在政治学研究领域,议会演讲数据被视为揭示民主政治动态的"金矿",但长期面临两大挑战:历史数据的完整性和跨时期可比性。芬兰作为北欧民主国家的典型代表,其议会制度自1907年建立以来经历了帝国统治、世界大战和数字化变革,却从未有研究系统整合其百年演讲数据。更关键的是,现有研究多局限于投票记录分析,而受制于芬兰严格的政党纪律(party discipline),投票数据难以真实反映议员个体立场。这一空白使得政治极化(polarization)、媒体效应等核心议题缺乏长期实证依据。
来自瑞典Wolt公司、图尔库大学和经济研究所(Labore)的Salla Simola、Jeremias Nieminen和Janne Tukiainen团队在《Scientific Data》发表了首个覆盖芬兰议会112年(1907-2018)的演讲数据集。研究通过分析39万条演讲记录发现:左翼与右翼政党语言差异在冷战时期的1970年代达到历史峰值(主要源于对苏联政策分歧),而电视转播的引入使政府与反对党演讲差异显著扩大15%。该数据集首次实现从帝俄时期到数字时代政治话语的纵向追踪,为比较政治学研究提供了新基准。
关键技术方法包括:1)从议会官网获取1907-2000年扫描件和2001-2018年PDF原始记录;2)采用pdf2text工具结合正则表达式(regex)进行文本结构化(如识别"Keskustelu"讨论起始标签);3)通过语言检测(langdetect)和词干提取(stemming)标准化文本;4)议员特征数据与演讲记录通过唯一ID(speaker_id)关联,包含性别、选区等38个维度元数据。
数据记录与验证
数据集包含两个核心表格:parliamentary_speeches.csv记录演讲文本(含原始OCR输出和清洗后版本),mps-ministers.csv包含议员背景特征。技术验证显示,1967年质询时段(question hour)改革后,演讲数量激增300%而平均长度下降60%(图1),与历史制度变革高度吻合。



研究结论与意义
该研究突破性地实现了三个维度的创新:时间跨度上,首次涵盖芬兰议会完整历史周期,包含1915-1916年议会停摆等特殊时期;方法学上,通过正则表达式和自动纠错系统(corr_name字段)解决历史OCR错误问题;应用价值上,数据集已用于三项重要发现——量化政治极化曲线、证明电视转播扩大政府-反对党分歧(β=0.23, p<0.01)、揭示农业党(Maalaisliitto)更名对议员话语的影响。
相比同类项目如ParliamentSampo,本研究的核心优势在于数据"即用性"(analysis-ready):所有文本已完成词干提取和停用词过滤,议员特征与演讲记录实现一键关联。这为政治学、计算社会科学(computational social science)研究提供了从微观(议员个体)到宏观(世纪趋势)的分析可能,特别是为选举制度改革(如开放名单制open-list system)效果评估建立了新范式。数据集已通过Figshare公开(DOI:10.6084/m9.figshare.28028732),其多语言(芬兰语/瑞典语)特性也为北欧比较政治研究开辟了新路径。
生物通微信公众号
知名企业招聘