
-
生物通官微
陪你抓住生命科技
跳动的脉搏
美国联邦政府采购大数据分析(1979-2023):透明化治理与腐败防控研究
【字体: 大 中 小 】 时间:2025年08月07日 来源:Scientific Data 6.9
编辑推荐:
这篇综述系统整理了1979-2023年美国联邦政府采购数据(FPDS),包含近1亿条合同记录。研究开发了Python爬虫和R包(fpdsScraper)实现数据采集与分析,揭示了政府采购中少数族裔企业优待政策(如10% minority-owned businesses)与单方投标(44% single-bid contracts)并存的矛盾现象,为研究政商关联(business-politics connections)和腐败机制提供了全新工具。
背景与意义
作为全球最大采购主体,美国联邦政府年度预算达6.75万亿美元,其中超10%用于政府采购。该系统涉及10万政府雇员,既是促进经济包容的工具(10%少数族裔企业依赖政府合同),也是腐败温床(44%合同仅单方投标)。现有联邦采购数据系统(FPDS)存在数据碎片化、接口陈旧等问题,严重制约研究效率。
数据采集方法
研究团队创新开发两套工具:
批量下载系统:基于Python Scrapy框架,通过ATOM feed接口按周分割时间范围(SIGNED_DATE:[YYYY/MM/DD,YYYY/MM/DD]),规避39.9万条/查询的限制。原始XML数据经清洗后转为Parquet格式,最终形成75GB完整数据集(99,057,002条记录,470变量)。
轻量级R包:fpdsScraper支持直接解析FPDS网页搜索结果URL,自动处理分页并返回结构化数据框,适合中小规模研究。
关键发现
时间趋势:1979-2004年合同数量与金额同步增长,后期金额停滞但数量持续上升(图1)。
地理分布:2012-2022年国会选区合同密度差异显著,部分选区呈现异常高值(图4)。
机构差异:国防部(DoD)等安全机构合同量在9·11后激增,而EPA等机构保持平稳(图3)。
数据验证
通过双重校验确保质量:
随机抽查250份合同,与FPDS官网记录比对准确率100%。
与USASpending.gov数据对比显示,差异主要源于未公开的预处理规则(如剔除IDV框架协议)。
应用警示
研究者需注意三类数据缺陷:
时间缺失:如systemEquipmentCode字段在1980年代前基本空白;
分类变更:2004/2010年《联邦采购条例》(FAR)修订导致竞争类型标记断裂;
极端值:存在负金额合同或1800年签署日期等明显错误,建议对99.9%分位数以上值进行Winsorize处理。
学术价值
该数据集首次实现45年政府采购数据的全周期覆盖,为以下研究提供新机遇:
政策评估:验证少数族裔企业扶持政策(如women-owned business指标)的实际效果;
腐败监测:通过竞标模式分析(single-bid比例)识别潜在合谋;
政治经济学:探索合同分配与选举地理的关联(congressional district层级数据)。
技术拓展性
提供的Parquet格式文件可通过R(arrow包)或Python(dask库)高效处理,配套的GitHub仓库包含聚合脚本(如aggregate_fpds_contract_level.py),支持按PIID字段汇总为合同级数据。未来可结合DUNS-UEI供应商编码转换表深化企业追踪研究。
生物通微信公众号
知名企业招聘