美国联邦政府采购大数据分析(1979-2023):透明化治理与腐败防控研究

【字体: 时间:2025年08月07日 来源:Scientific Data 6.9

编辑推荐:

  这篇综述系统整理了1979-2023年美国联邦政府采购数据(FPDS),包含近1亿条合同记录。研究开发了Python爬虫和R包(fpdsScraper)实现数据采集与分析,揭示了政府采购中少数族裔企业优待政策(如10% minority-owned businesses)与单方投标(44% single-bid contracts)并存的矛盾现象,为研究政商关联(business-politics connections)和腐败机制提供了全新工具。

  

背景与意义

作为全球最大采购主体,美国联邦政府年度预算达6.75万亿美元,其中超10%用于政府采购。该系统涉及10万政府雇员,既是促进经济包容的工具(10%少数族裔企业依赖政府合同),也是腐败温床(44%合同仅单方投标)。现有联邦采购数据系统(FPDS)存在数据碎片化、接口陈旧等问题,严重制约研究效率。

数据采集方法

研究团队创新开发两套工具:

  1. 批量下载系统:基于Python Scrapy框架,通过ATOM feed接口按周分割时间范围(SIGNED_DATE:[YYYY/MM/DD,YYYY/MM/DD]),规避39.9万条/查询的限制。原始XML数据经清洗后转为Parquet格式,最终形成75GB完整数据集(99,057,002条记录,470变量)。

  2. 轻量级R包:fpdsScraper支持直接解析FPDS网页搜索结果URL,自动处理分页并返回结构化数据框,适合中小规模研究。

关键发现

  • 时间趋势:1979-2004年合同数量与金额同步增长,后期金额停滞但数量持续上升(图1)。

  • 地理分布:2012-2022年国会选区合同密度差异显著,部分选区呈现异常高值(图4)。

  • 机构差异:国防部(DoD)等安全机构合同量在9·11后激增,而EPA等机构保持平稳(图3)。

数据验证

通过双重校验确保质量:

  1. 随机抽查250份合同,与FPDS官网记录比对准确率100%。

  2. 与USASpending.gov数据对比显示,差异主要源于未公开的预处理规则(如剔除IDV框架协议)。

应用警示

研究者需注意三类数据缺陷:

  1. 时间缺失:如systemEquipmentCode字段在1980年代前基本空白;

  2. 分类变更:2004/2010年《联邦采购条例》(FAR)修订导致竞争类型标记断裂;

  3. 极端值:存在负金额合同或1800年签署日期等明显错误,建议对99.9%分位数以上值进行Winsorize处理。

学术价值

该数据集首次实现45年政府采购数据的全周期覆盖,为以下研究提供新机遇:

  • 政策评估:验证少数族裔企业扶持政策(如women-owned business指标)的实际效果;

  • 腐败监测:通过竞标模式分析(single-bid比例)识别潜在合谋;

  • 政治经济学:探索合同分配与选举地理的关联(congressional district层级数据)。

技术拓展性

提供的Parquet格式文件可通过R(arrow包)或Python(dask库)高效处理,配套的GitHub仓库包含聚合脚本(如aggregate_fpds_contract_level.py),支持按PIID字段汇总为合同级数据。未来可结合DUNS-UEI供应商编码转换表深化企业追踪研究。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号