
-
生物通官微
陪你抓住生命科技
跳动的脉搏
MapAgora数据集:揭示美国基层政治与公共政策中的公民参与机会不平等
【字体: 大 中 小 】 时间:2025年07月09日 来源:Scientific Data 5.8
编辑推荐:
本研究通过整合IRS税务记录与170万非营利组织网站数据,构建MapAgora五大数据集,首次系统量化美国公民参与机会(membership/volunteering/events/political action)的地理分布。研究发现公民机会与组织财力呈负相关,且宗教/兄弟会组织占基层公民机会80%,为研究民主参与不平等提供了新工具。
民主制度的健康运转离不开公民参与,但美国基层公民社会的"黑箱"长期困扰研究者。随着政治极化加剧和社会信任度下降,一个核心问题日益凸显:为什么某些社区的公民更有能力组织集体行动?传统研究受限于数据碎片化,要么依赖狭窄的参与指标(如投票率),要么陷入个案研究难以比较。这种认知空白使得政策制定者难以精准识别"公民荒漠"(civic deserts)——那些存在组织但缺乏参与机会的社区。
SNF Agora Institute at Johns Hopkins University(约翰霍普金斯大学SNF Agora研究所)的JaeYeon Kim、Milan de Vries和Hahrie Han团队在《Scientific Data》发表的研究,通过革命性的数据整合方法破解了这一难题。研究人员构建的MapAgora数据集首次系统捕捉了美国170万非营利组织提供的四类公民机会(membership/volunteering/events/take_action),并通过机器学习将其分类为15种组织类型。这项研究揭示出令人惊讶的发现:提供最多公民机会的往往是资源匮乏的宗教和兄弟会组织,而非财力雄厚的基金会。该数据集已实现ZIP码(邮编区)和县级的空间可视化,为理解公民基础设施与民主健康的关系提供了量化标尺。
研究团队采用三项关键技术:1)基于IRS免税组织主文件的170万组织采样框架,结合XML解析实现多版本Form 990税务表格的标准化提取;2)通过Bing API获取并验证组织网址,从106万网站"About"页面提取文本(平均1077词/网站),较IRS记录信息量提升40倍;3)开发正则表达式规则(如"(?<![a-zA-Z])join|member|sign up"检测会员机会)与集成学习模型(LASSO+XGBoost,准确率90%)实现机会与组织类型的自动化分类。
【数据记录】构建的五级数据集包括:1)组织级(去标识化):含公民机会二进制指标、预测组织类型和财务数据;2)ZIP码级(30,988个):标准化每10万人的公民机会计数;3)县级(3,281个):含组织类型分布。特别处理了4,168个联邦组织(如女童军)的章节重复问题,并排除23%的PO Box地址以保障本地嵌入性。
【技术验证】组织层面分析显示,提供多重公民机会的组织median资产(3.2万vs 8.7万)、收入(4.1万vs 9.3万)显著低于单一机会提供者。县级数据验证发现,贫困率(POV150)每增10%,公民机会得分降2.3(p<0.01),而宗教/兄弟会组织依赖度升4.7%。ZIP码级分析因地理错配(组织地址≠服务范围)信度较低。
【使用说明】该数据集突破性地将研究视角从个体行为转向结构性机会供给,特别揭示:1)80%县级公民机会由宗教/兄弟会组织提供;2)3%县和17%ZIP码属"公民荒漠";3)COVID-19响应效果与公民基础设施强度正相关(疫苗接种率差异达40%)。交互式仪表盘(https://snfagora.github.io/agora_dashboard/)支持政策制定者定位资源投放盲区。
这项研究的重要价值在于建立了公民机会的量化基准,解构了"社会资本"的黑箱。发现资源与机会的负相关挑战了传统认知——小型教会可能比盖茨基金会更能培育民主技能。数据集为解释政策实施差异(如疫苗推广)提供了新变量,其开源工具(MapAgora v0.08 R包)支持动态追踪公民生态演变。未来研究可结合选举数据(precinct-level results)探究公民机会对政治参与的长效影响,或拓展监测非注册组织(如互助网络)的方法论。该成果标志着计算社会科学在民主研究中的范式突破,为诊断和修复美国基层民主的"毛细血管"提供了GPS导航。
生物通微信公众号
知名企业招聘