编辑推荐:
为解决捷克候选人跨选举追踪难题,查尔斯大学(Charles University)研究人员构建了捷克政治候选人数据集(CPCD)和捷克政治捐赠数据集(CPDD)。研究通过算法匹配候选人信息,整合市政、区域、国家及欧洲议会选举数据,并链接政治捐赠记录。成果为政治生涯轨迹、选举行为及捐赠影响研究提供了新视角,助力深入剖析政治现象背后的机制,值得相关领域科研人员关注。
在探讨政治现象和选举过程的研究中,数据的准确性和完整性是至关重要的。然而,对于捷克共和国的政治研究者来说,长期以来一直存在一个棘手的问题:由于缺乏统一的候选人识别系统,不同选举之间的候选人信息难以追踪和匹配。这意味着研究人员在分析政治候选人的长期表现、政治生涯轨迹以及他们在不同选举中的表现时,面临着巨大的数据整合挑战。为了解决这一问题,来自捷克查尔斯大学的研究人员在《Scientific Data》期刊上发表了一篇题为《Czech Political Candidate and Donation Datasets》的论文,介绍了一个全新的捷克政治候选人数据集(Czech Political Candidate Dataset, CPCD)和捷克政治捐赠数据集(Czech Political Donation Dataset, CPDD),为政治研究提供了强有力的数据支持。
为了构建这些数据集,研究人员采用了多种关键技术方法。首先,他们从捷克统计局(Czech Statistical Office, CZSO)获取了自1993年以来的所有市政、区域、国家和欧洲议会选举的原始数据,并通过算法将不同选举中的候选人信息进行匹配和整合。其次,研究人员开发了一个新的数据集——捷克政治捐赠数据集(CPDD),收集了2017年至2023年间向12个主要政党捐赠的个人捐赠记录,并将其与CPCD进行匹配。最后,为了确保数据的准确性和可靠性,研究人员对数据进行了严格的清洗和验证,包括纠正捐赠者姓名中的拼写错误、统一日期格式等。
研究背景与问题
捷克共和国是一个民主单一制国家,其政治体系分为三个治理层级:市政(obce)、区域(kraje)和中央政府。公民参与市政、区域和国家议会选举,而自2004年加入欧盟后,欧洲议会选举也成为了捷克选举体系的一部分。然而,尽管选举频率增加,但捷克的选举数据管理却存在一个明显的缺陷:捷克统计局(CZSO)虽然会发布详细的选举结果数据,但并未为候选人分配唯一标识符,这使得候选人难以在不同年份和不同类型的选举中被追踪。这种数据管理上的不足,限制了对政治候选人的长期表现、政治生涯轨迹以及他们在不同选举中的表现的研究。
研究方法
研究人员通过以下几种关键技术方法构建了CPCD和CPDD数据集:
数据整合与匹配:研究人员从CZSO获取了自1993年以来的所有选举数据,并通过算法将不同选举中的候选人信息进行匹配,构建了一个包含841,565名独特候选人和1,716,471次候选-选举观测的综合数据集。
捐赠数据收集与处理:研究人员开发了CPDD数据集,收集了2017年至2023年间向12个主要政党捐赠的个人捐赠记录,并将其与CPCD进行匹配。
数据清洗与验证:研究人员对数据进行了严格的清洗和验证,包括纠正捐赠者姓名中的拼写错误、统一日期格式等,以确保数据的准确性和可靠性。
研究结果
捷克政治候选人数据集(CPCD)
CPCD数据集包含了自1993年以来所有参与捷克市政、区域、国家和欧洲议会选举的候选人的详细信息。研究人员通过算法将不同选举中的候选人信息进行匹配,构建了一个包含841,565名独特候选人和1,716,471次候选-选举观测的综合数据集。该数据集不仅包含了候选人的基本信息(如姓名、年龄、性别、居住地等),还涵盖了他们的教育背景、政党隶属关系、选票结果等。通过CPCD,研究人员能够追踪候选人在不同选举中的表现,分析他们的政治生涯轨迹,以及研究政治选拔、候选人表现和多职位兼任等现象。
捷克政治捐赠数据集(CPDD)
CPDD数据集则专注于政治捐赠,收集了2017年至2023年间向12个主要政党捐赠的个人捐赠记录。研究人员从捷克经济事务监督办公室(Office for Supervision of Economic Affairs of Political Parties and Political Movements, OSEAPPPM)获取了原始数据,并进行了手工清洗和整理。最终,CPDD包含了57,339条捐赠记录,涉及38,472名独特的捐赠者。通过将CPDD与CPCD进行匹配,研究人员发现,32%的捐赠是由候选人本人完成的,这为研究政治捐赠与候选人之间的关系提供了新的视角。
研究结论与讨论
CPCD和CPDD的构建为捷克政治研究提供了前所未有的数据资源。通过整合不同选举中的候选人信息和政治捐赠记录,研究人员能够更全面地分析政治候选人的行为、政治生涯轨迹以及政治捐赠的影响。例如,通过CPCD,研究人员可以追踪候选人在不同选举中的表现,分析他们的政治生涯轨迹,以及研究政治选拔、候选人表现和多职位兼任等现象。而CPDD则为研究政治捐赠与候选人之间的关系提供了新的视角,揭示了政治捐赠在候选人竞选过程中的作用。
此外,这两个数据集的构建还具有重要的方法论意义。研究人员通过开发匹配算法和数据清洗技术,解决了候选人信息难以追踪的问题,并为其他类似研究提供了一个可借鉴的框架。同时,通过与现有的其他数据集进行对比验证,研究人员确保了CPCD和CPDD的准确性和可靠性,为后续的研究提供了坚实的基础。
总之,CPCD和CPDD的构建不仅为捷克政治研究提供了宝贵的数据资源,也为理解政治候选人的行为和政治捐赠的影响提供了新的视角。通过这些数据集,研究人员能够更深入地探讨政治现象背后的机制,为推动政治学研究的发展做出贡献。