2020 年美国大选主要竞选演讲文本数据集:解锁政治话语密码,洞察选举风云

【字体: 时间:2025年04月20日 来源:Scientific Data 5.8

编辑推荐:

  在政治学研究中,现有美国总统大选竞选演讲数据集存在局限。研究人员构建 2020 年美国大选主要竞选演讲文本数据集。该数据集涵盖 1056 篇演讲,质量高。为政治科学等领域研究提供优质数据,助力相关分析。

  在政治研究的广阔天地里,传统定量政治和选举研究往往聚焦于投票、公民福利、民意和机构等方面,依赖调查、民意测验、金融和人口统计数据。但随着时代发展,非结构化数据尤其是文本数据的价值逐渐凸显。在 “文本即数据”(text-as-data)方法的推动下,文本数据开始被用于构建和测试政治理论模型。然而,现有关于美国总统大选竞选演讲的数据集却问题重重。有的样本量小,有的来源单一,还有的包含多种演讲类型,修辞结构不一致,数据整理细节缺失,错误率较高。这些问题严重制约了对候选人演讲策略、意识形态以及选举动态的深入研究。为了打破这些困境,来自法国国家科学研究中心(CNRS)、巴黎索邦新大学、美国加利福尼亚大学圣巴巴拉分校的研究人员 Ioannis Chalkiadakis、Louise Anglès d’Auriac、Gareth W. Peters 和 Divina Frau-Meigs 展开了一项极具意义的研究 。他们构建了一个全新的数据集,专门收录 2020 年美国大选期间民主党和共和党候选人的竞选演讲,相关成果发表在《Scientific Data》上。
研究人员为了构建高质量的数据集,采用了多种关键技术方法。数据收集上,他们从弗吉尼亚大学米勒中心、Vote Smart、C-SPAN 以及候选人个人的 Medium 博客等权威渠道获取数据。利用 Python 编写的网络爬虫软件,针对不同网站结构编写专门代码进行数据抓取。数据处理时,制定严格标准筛选演讲内容,如要求演讲为部分或完全脚本化、面向选民、由候选人主导等。对收集到的数据进行清洗和预处理,去除不符合标准的内容以及文本噪声。在技术验证环节,通过在机器学习主题建模应用中使用数据集,验证数据质量。

研究结果如下:

  • 数据集构建:数据集包含 1056 篇演讲,时间跨度为 2019 年 1 月至 2021 年 1 月。数据按来源和候选人进行组织,提供原始数据和预处理数据,以 TSV、JSONL 和 Apache Parquet 三种格式存储,方便不同处理流程使用。
  • 数据清洗和预处理:经过多轮清洗和预处理,去除了演讲中的问答环节、无关标识、非候选人发言内容等噪声。对不同来源数据采用针对性处理方法,如处理 C-SPAN 数据时手动确定候选人演讲起止点,确保数据质量。处理后,各候选人演讲保留了较高比例的文本单元(token),中位数约 87% 。
  • 技术验证:通过在机器学习主题建模应用中使用数据集,发现该数据集能有效反映政治话题在不同时期的占比变化。如在 2019 年 6 月,两党都关注经济问题,民主党还关注对外关系、自由和民主,共和党关注对外关系和社会结构,这与当时墨西哥关税和移民问题的政治背景相符,表明数据集具有描述政治时期的统计结构。

研究结论和讨论部分指出,该数据集具有重要意义。它为政治科学、修辞学、媒体和传播学、政治营销等领域的研究提供了丰富数据资源。有助于研究副总统演讲对竞选的贡献、竞选时间线与修辞调整的关系、候选人修辞对党派支持者极化的影响等问题。还可用于时间序列研究,如检测演讲主题变化和极化言论的出现。这个数据集的出现,为相关领域研究开辟了新途径,让研究人员能够更深入地剖析政治演讲背后的奥秘,为理解选举动态和政治话语提供了有力支持。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号