Meta与谷歌平台2022年美国中期选举数字广告的跨平台可比数据集构建与分析

【字体: 时间:2025年06月10日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对数字政治广告透明度不足的问题,由Wesleyan University等机构团队开展跨平台选举广告透明度倡议(CREATIVE),通过整合Meta和Google平台的广告库数据,结合ASR、OCR等技术构建了包含37.7万条Meta广告和8万条Google广告的可比数据集。研究创新性地采用多模态数据处理和机器学习分类方法,实现了广告内容结构化、赞助商类型标注和党派倾向预测,为分析数字选举广告的传播策略和民主影响提供了重要资源,成果发表于《Scientific Data》。

  

在当代民主政治中,数字平台已成为选举广告的重要战场。随着Meta和Google两大科技巨头在政治广告市场的份额快速增长,其平台上的数字广告正深刻影响着选民行为和选举结果。然而,2016年美国总统大选期间的外国干预和剑桥分析公司丑闻暴露出数字政治广告的透明度危机,促使平台方建立了广告库等透明度工具。但这些工具存在信息碎片化、格式不统一、搜索功能有限等问题,特别是缺乏对广告赞助商政治属性(如党派倾向)和广告内容特征(如攻击性语调)的系统标注,严重阻碍了学术界对数字选举广告的量化研究。

为解决这一难题,由Wesleyan University领衔,联合Duke Kunshan University等机构的研究团队开展了跨平台选举广告透明度倡议(CREATIVE)。研究人员聚焦2022年美国中期选举关键期(9月至选举日),从Meta和Google广告库中收集了457,968条联邦选举相关广告,通过创新性的多模态数据处理和机器学习方法,构建了首个跨平台可比数字选举广告数据集。该研究不仅填补了数字政治广告研究的数据空白,更为分析竞选策略、资金流向和选民影响提供了全新视角,相关成果发表在《Scientific Data》期刊。

研究团队采用三大关键技术方法:1)通过平台API和网络爬虫获取原始广告数据,运用自动语音识别(ASR)和光学字符识别(OCR)提取视听广告中的文本信息;2)利用Amazon Rekognition API进行面部识别,结合spaCy实体链接模型检测广告中的政治人物;3)开发机器学习分类器(包括随机森林和多分类逻辑回归)预测广告语调、党派倾向等关键特征,训练数据来自7,962条人工标注广告样本。

【数据收集与处理】
研究首先从Meta和Google广告库获取原始广告ID和元数据。针对Google平台,直接从透明度报告下载数据;对于Meta平台,则结合关键词搜索(如"senate"、"congress")和人工验证确定联邦选举相关广告。通过SHA-256校验值对重复创意内容进行去重处理,最终获得377,721条Meta广告和80,247条Google广告。

【多模态内容提取】
研究团队采用Google Cloud Speech-to-Text API转录视频广告语音内容,通过Amazon Rekognition API识别图像和视频中的叠加文字及政治人物面部。如图3所示,OCR技术能准确提取广告图像中的竞选标语和候选人信息,而图4展示的面部识别结果验证了该系统对政治人物的高识别准确率。

【政治实体检测】
该研究构建了包含2022年联邦候选人的知识库,通过命名实体识别和面部识别技术检测广告中的政治人物。实体链接模型在测试中达到0.80的F1值,能有效区分姓名相近的候选人(如多位姓"Johnson"的候选人)。面部识别则采用Amazon Rekognition的一样本分类技术,仅需单张照片即可实现高精度识别。

【广告特征分类】
研究实现了七大类广告特征标注:1)基于政治实体提及的广告语调分类(促进/攻击/对比);2)赞助商党派倾向预测(民主党/共和党/其他),赞助商级分类准确率达0.90;3)选举焦点选区判定;4)基于方面的情感分析(ABSA),随机森林模型F1值0.82;5)广告目标分类(选民说服/募捐/动员投票),说服类广告识别准确率0.86;6)赞助商类型标注;7)政策议题识别,对堕胎、税收等17个重点议题实现有效分类。

研究最具创新性的发现是建立了数字广告与联邦选举的关联规则。通过分析广告赞助商类型、候选人提及模式和地理定位数据,研究团队构建了"选举焦点选区"决策树(图5),将广告精准关联到具体选举竞争。结果显示,Meta广告覆盖了全部435个众议院选区,Google广告则覆盖了372个,证实了数据收集的全面性。

在广告语调分析方面,研究提出了"基于提及"和"构建型"两种测量方法。前者沿用John Geer的经典定义,仅依据候选人及其对手的提及情况判断语调;后者则整合了政治实体检测、ABSA和选区焦点信息,为团体赞助广告的语调分析提供了新思路。分析显示,候选人赞助广告中"促进"类占主导,而外部团体更倾向使用"攻击"性内容。

这项研究创建了迄今为止最全面的数字选举广告数据库,其科学价值主要体现在三个方面:首先,通过标准化处理解决了跨平台广告数据不可比的问题,使Meta和Google广告能在统一框架下分析;其次,开发的多模态内容提取和分类方法为政治广告研究提供了可复用的技术方案;最后,标注的丰富特征变量(如党派倾向、广告语调等)支持了从传播学、政治学到数据科学的跨学科研究。

数据集的实际应用前景广阔。政治学者可分析数字广告的竞选策略差异,法学家能评估平台透明度政策的效果,记者则可追踪"黑钱"团体对选举的干预。研究团队特别建议以广告支出加权分析关键变量,更准确反映竞选投入的实际分布。随着2024年美国总统大选临近,这套方法论和数据集将成为监测数字政治广告的重要基准工具。

该研究的局限在于广告库数据的动态性——Google在2023年夏季新增了部分2022年选举期广告,提示数字广告档案具有流动性特征。未来研究可探索开源模型(如Whisper)替代现有商业API,并扩展对更多平台(如TikTok)的分析。这些创新将为理解数字时代政治传播提供更全面的视角。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号