基于Transformer架构的机器学习模型实现美国州立法政策议程自动分类研究

【字体: 时间:2025年07月23日 来源:Scientific Data 5.8

编辑推荐:

  本研究针对美国州立法机构政策议题缺乏系统性编码的问题,开发了基于Transformer架构的机器学习模型(BERT/RoBERTa/XLNet),通过上下文词嵌入技术对2009-2020年间136万项州法案进行28个政策领域的自动分类。研究验证显示该方法准确率达80%(Top-K=3),显著优于传统词典法,为研究美国联邦制下的政策扩散和议程设置提供了全新数据支持。

  

在美国联邦制体系下,州立法机构处理着从选举法到公民权利等重要政策议题,但由于缺乏类似国会图书馆的中央管理机构,这些立法数据长期处于"信息孤岛"状态。传统的人工编码方法成本高昂且覆盖面有限,而基于关键词的词典法则存在严重局限性——例如将"学习环境"错误归类为环境政策而非教育政策。这种数据缺口严重制约了学者对州级政策议程的系统研究,特别是在观察政策创新扩散和跨州比较研究方面。

为解决这一难题,来自佛蒙特大学(University of Vermont)政治学系的Alex Garlick团队与独立研究员Ethan Dee合作,开发了一套基于Transformer架构的机器学习模型。该研究利用BERT等先进算法,通过三阶段处理流程实现了对州立法文本的精准分类,相关成果发表在《Scientific Data》期刊。这项研究不仅建立了首个覆盖全美各州的立法政策数据库,更揭示了州立法议程的动态变化规律——例如研究发现,在《平价医疗法案》通过后的2010年,各州卫生政策提案出现显著增长,但在2017年废除该法案失败后却未见类似波动。

研究人员采用的关键技术方法包括:1)从Legiscan数据库获取2009-2020年136万项州法案的标题和描述文本;2)构建包含28个政策领域的扩展代码本(基于Gray-Lowery和比较议程项目代码本);3)开发三阶段Transformer模型(BERT/RoBERTa/XLNet),通过上下文词嵌入(word embedding)和自注意力机制(self-attention)实现语义理解;4)采用Top-K协议和排名损失(Ranking Loss)等多标签评估指标验证模型性能。

研究方法

研究团队首先复制了Garlick(2023)使用的传统词典方法作为基线模型,该方法仅能覆盖41%的法案。为突破这一局限,研究人员创新性地采用基于Transformer架构的深度学习模型,通过三阶段处理流程:第一阶段模拟词典方法进行监督学习;第二阶段通过随机替换、删除和掩码(mask)关键词等技术破坏输入数据,迫使模型学习上下文线索;第三阶段基于无关键词法案重新训练模型,彻底切断关键词与主题的机械联系。这种设计使模型能够识别如"学习环境"等复杂表述的真实政策含义。

数据记录

研究产出包含两个层级的数据集:个体法案预测数据集包含3810万条预测记录(每项法案对应28个政策领域的概率值);主数据集则采用τ=0.5的置信阈值标记每项法案的政策归属。数据显示51%的法案被归入单一政策领域,26%属于双重领域,极少数综合性法案(如蒙大拿州2021年HB2《综合拨款法案》)则涉及五个以上政策领域。模型对西弗吉尼亚州2011年HB2801《医疗选择法案》的分析显示,虽然标题指向"医疗"领域(预测概率0.989),但模型更确定其属于"保险"领域(0.999),准确反映了法案调节保险公司的实质内容。

技术验证

研究通过三重验证证明模型的可靠性:1)与传统词典法比较显示,模型在税收政策等领域的精确度(Precision)达74%,但在国际事务等复杂领域仅5%,反映后者更依赖上下文理解;2)内部验证显示,模型对"水力压裂"相关法案的分类准确捕捉到其同时涉及能源、环境和公共土地管理的特性;3)与宾夕法尼亚政策数据库项目(PPDP)人工编码结果的外部对比表明,模型的微平均F1分数达0.50,显著优于词典法的0.29,特别是在召回率(recall)方面提升超过一倍。人工编码1000项法案的验证显示,模型Top-K=3时的吻合度达80%,与人类编码员的专业水准相当。

结论与意义

这项研究创建了首个覆盖全美各州的立法政策数据库,解决了州级政策研究长期面临的数据瓶颈。方法学上,研究证明Transformer架构在政治文本分析中的优越性,其通过上下文词嵌入技术实现了对立法文本的"语义理解",而非简单的关键词匹配。实践层面,数据库揭示了州立法议程的动态规律,如军事/退伍军人事务被证明是传统方法低估的重要政策领域。数据还显示明显的党派差异——民主党主导民权法案,而共和党更多推动宗教议题。这些发现为理解美国联邦制下的政策创新扩散提供了全新视角。

研究团队特别设计了用户友好的数据接口,包含美国联合操作编码(AJO)系统,支持按两年期(对应各州立法会期)或年度两种聚合方式。考虑到新泽西等四州的特殊选举周期,数据集还提供了年份调整变量。这项开源数据集不仅填补了州级政策研究的空白,其采用的机器学习框架也为其他政治文本分析提供了可复用的方法论模板。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号