
-
生物通官微
陪你抓住生命科技
跳动的脉搏
CampaignView数据库:解密美国国会选举候选人的政策立场与个人叙事
【字体: 大 中 小 】 时间:2025年07月16日 来源:Scientific Data 5.8
编辑推荐:
本研究针对美国国会选举中候选人信息缺乏系统化数据的现状,开发了CampaignView开放数据库,收录2018-2022年间86.9%主要政党候选人的竞选网站文本数据(含43,465条政策主张和5,114份个人传记),通过人工标注建立14个Major Policy Topic分类体系,为研究政治极化、议程设置和代议制民主提供了首个实时采集的标准化数据平台。
在美国民主政治的运作中,国会选举如同定期上演的"政策风向标",然而令人惊讶的是——这个号称世界最发达民主国家的选举系统中,竟长期缺乏对候选人政策主张的系统性记录。每当选举季来临,数千名国会候选人通过精心设计的竞选网站向选民展示自我,这些数字化的"政治名片"蕴含着关键的政策信号和个人叙事,却如同散落的拼图碎片,从未被完整收集整理。这种数据缺失直接阻碍了学术界对政治极化、议程设置和代议制等核心问题的研究。
来自圣母大学(University of Notre Dame)、爱荷华大学(University of Iowa)和北卡罗来纳大学教堂山分校(University of North Carolina at Chapel Hill)的研究团队敏锐捕捉到这个研究空白。他们历时四年打造的CampaignView数据库,如同为政治学研究安装了一台高精度的"政策雷达",成功捕获了2018-2022年间5,228名国会候选人的数字足迹,这些候选人覆盖了同期86.9%的主要政党竞争者。该研究成果近期发表在《Scientific Data》期刊,标志着选举研究领域首个实时采集、人工标注的大规模文本数据库诞生。
研究团队采用三项关键技术方法构建该数据库:1)在初选前一周实时抓取候选人网站文本,结合Wayback Machine补充缺失数据;2)将政策文本解析为独立平台点(platform points),建立包含14个Major Policy Topic的手工标注体系;3)整合候选人元数据(党派、在职状态等)和选区特征(总统投票倾向等),实现跨数据库链接。
数据收集与处理方法
通过三重验证确保候选名单完整性后,研究团队在初选前关键窗口期采集网站文本。如图1所示,传记叙事通过标准化流程提取,而政策平台则被分解为独立文档(图2)。特别值得注意的是,7.8%的数据来自互联网档案馆抢救性收集,且在职议员会补充官方House.gov网站内容。
主题标注验证
人工标注的14个Major Policy Topic展现出显著区分度(表2),如"农业"类高频词包含farmers、crops等专业术语。通过20%样本重标验证,编码员间一致性达80%(Cohen's Kappa=0.84),尤其在"医疗保健"和"移民"等争议性议题上表现稳定。
缺失数据分析
表5揭示深层规律:筹款超过10万美元的候选人网站缺失率降低22.2%,而在职议员缺失率骤降296.7%,印证了"严肃候选人"更重视网络形象的政治规律。值得注意的是,共和党候选人比民主党多23.8%概率发布政策平台,反映两党传播策略差异。
时空演变特征
图3揭示引人深思的党派动态:民主党持续主导"医疗保健"议题(2022年差距达40个百分点),而共和党在"政府运作"议题保持20个百分点优势。教育议题的党派差距在2022年突然收窄,暗示"批判性种族理论"等新争议的出现改变了传统议题格局。
这项研究最突出的理论贡献在于建立了选举承诺与立法行为的桥梁。通过将政策议题与Policy Agendas Project编码对接(表6),为后续研究"竞选承诺履行度"提供了测量基础。在方法论层面,实时采集策略克服了传统网络存档数据50%缺失率的局限,而精细的主题分类体系则解决了跨党议题比较的标准化难题。
CampaignView数据库的开放共享将产生深远影响:对学者而言,首次实现多周期候选人文本的纵向比较;对媒体和选民而言,交互式查询平台(campaignview.org)提供了透视候选人政策立场的"X光机";而对候选人自身,这个数据库意外成为检视其政策一致性的"照妖镜"。随着2024年选举数据的持续纳入,这个政治学的"数字罗塞塔石碑"将继续破译美国民主的密码。
生物通微信公众号
知名企业招聘