基于厄瓜多尔纳税人分布数据的领土分析:一种利用税务登记处开放数据的数据科学方法

《Big Data and Cognitive Computing》:Territorial Analysis Based on Data from the Distribution of Taxpayers in Ecuador: A Data Science Approach Using Open Data from the Tax Registry

【字体: 时间:2026年06月09日 来源:Big Data and Cognitive Computing 4.4

编辑推荐:

  厄瓜多尔的开放财政数据在很大程度上仍未得到深入探索,仅限于基本的描述性报告,尽管其在领土智能和财政规划方面具有潜力。本研究通过将基于Apache Spark 3.5、PostgreSQL 14/PostGIS 3.2和Python 3.11空间库构建的大数据管

  
厄瓜多尔的开放财政数据在很大程度上仍未得到深入探索,仅限于基本的描述性报告,尽管其在领土智能和财政规划方面具有潜力。本研究通过将基于Apache Spark 3.5、PostgreSQL 14/PostGIS 3.2和Python 3.11空间库构建的大数据管道(Big Data pipeline)应用于包含约250万条记录的SRI税务登记处(SRI Tax Registry),考察了纳税人跨厄瓜多尔各省和经济部门的分布情况。分析结合了K-Means和DBSCAN聚类与空间自相关方法,包括莫兰指数(Moran's Index)和局部空间关联指标(LISA),以识别集中模式和领土依赖性。研究发现,68%的纳税人位于三个省份,即皮钦查(Pichincha,34%)、瓜亚斯(Guayas,24%)和阿苏艾(Azuay,10%),空间基尼系数(spatial Gini coefficient)为0.61,反映了全国范围内显著的财政不平等。全局莫兰指数(Global Moran's Index)为0.49(p < 0.001),证实相邻省份往往具有相似的纳税人密度,而LISA揭示了主要城市中心的5个高-高(High–High)集群和亚马逊地区及北部边境的6个低-低(Low–Low)集群。DBSCAN识别出27个空间分组,包括在安巴托(Ambato)、里奥班巴(Riobamba)和马查拉(Machala)等城市的次级经济核心,这些是自相关模型单独无法捕捉的。该方法具有可复制性,并为在类似情境下设计基于地点的财政政策提供了实用基础。这些结果为税务当局和区域规划者提供了一个经验驱动、可扩展的框架,用于识别存在财政正规化缺口的领土,并设计地理上针对性的干预措施,以减少厄瓜多尔及类似发展中国家背景下的领土不平等。
**论文解读文章**

**研究背景与问题**
厄瓜多尔尽管拥有开放的财政数据,但对其的利用主要停留在基础描述性报告层面,未能充分发挥其在领土智能和财政规划中的潜力。现有研究在拉丁美洲地区虽尝试利用空间计量经济学和传统统计方法分析经济活动分布,但存在明显局限:要么采用空间分析却不具备大数据可扩展性,要么应用聚类技术却未评估空间依赖性,导致领土特征刻画不完整。此外,全球范围内,整合人工智能与空间大数据框架的研究成为前沿,但在发展中国家开放财政数据领域,缺乏可扩展的集成分析方法。因此,本研究旨在填补这一空白,通过开发并应用一个集成的Big Data(大数据)与空间分析管道,对厄瓜多尔税务登记处(SRI Tax Registry)的开放数据进行分析,以揭示纳税人分布的领土模式、空间依赖性和财政不平等程度。该论文发表在《Big Data and Cognitive Computing》。

**关键技术方法**
研究人员使用Apache Spark 3.5(分布式处理引擎)、PostgreSQL 14/PostGIS 3.2(空间数据库)和Python 3.11空间库(包括PySAL、GeoPandas、Scikit-learn)构建了端到端的大数据管道。分析中应用了K-Means和DBSCAN(基于密度的空间聚类算法)进行聚类,结合莫兰指数(Moran's Index)和局部空间关联指标(LISA)评估空间自相关,并采用空间基尼系数(Spatial Gini coefficient)量化财政不平等。数据来源为SRI税务登记处的开放CSV文件,包含约250万条记录,按省份组织。

**研究结果**

4.1 Patterns of Territorial Concentration and Fiscal Inequality(领土集中与财政不平等模式)
通过描述性统计和空间基尼系数分析,研究人员发现68%的纳税人集中在皮钦查(34%)、瓜亚斯(24%)和阿苏艾(10%)三省,空间基尼系数为0.61,表明显著的财政不平等。阿苏艾省虽非第三人口大省(人口第三为马纳比省),但因昆卡市作为金融和制造业中心,其纳税人密度与人口规模不匹配。此外,税务状态分布显示49.94%为暂停状态,41.05%为活跃状态,敏感性分析表明纳入非活跃纳税人未改变空间集中模式。

4.1.1 Comparison with Previous Studies(与以往研究比较)
与以往研究相比,本研究通过引入空间基尼系数(考虑了空间依赖性),提供了比传统非空间基尼系数更准确的财政集中度估计,并在厄瓜多尔背景下首次应用该分解方法。

4.1.2 Interpretation from Big Data(大数据视角的解读)
利用Spark分布式处理,250万条记录的省级聚合时间从传统方法的20分钟缩短至3分钟,展示了大数据架构的可扩展性优势。

4.2 Spatial Autocorrelation and Territorial Clusters(空间自相关与领土集群)
全局莫兰指数为0.49(p < 0.001),证实纳税人密度存在显著正空间自相关,即高密度省份被高密度邻居包围。LISA分析进一步识别了具体集群。

4.2.1 High–High and Low–Low Clusters(高-高与低-低集群)
LISA识别出5个高-高集群:皮钦查、瓜亚斯、阿苏艾、通古拉瓦(Tungurahua)和圣多明各-德洛斯查奇拉斯(Santo Domingo de los Tsáchilas);6个低-低集群:奥雷亚纳(Orellana)、帕斯塔萨(Pastaza)、莫罗纳-圣地亚哥(Morona Santiago)、萨莫拉-钦奇佩(Zamora Chinchipe)、苏昆比奥斯(Sucumbíos)和卡尔奇(Carchi)。低-低集群集中在亚马逊地区和北部边境,暗示结构性正规化障碍。

4.2.2 Comparison with Regional Studies(与地区研究比较)
该结果与哥伦比亚、秘鲁等拉丁美洲国家的财政极化模式一致,ECLAC(2023)将其归因于基础设施和金融服务获取不足。

4.2.3 Contribution of Spatial Clustering with DBSCAN(DBSCAN空间聚类的贡献)
DBSCAN识别出27个空间分组,其中仅7个超过500名纳税人,揭示了安巴托、里奥班巴和马查拉等次级城市的多中心集中模式,这些是自相关模型未能捕捉的。

4.3 Value of the Big Data Approach in Territorial Fiscal Analysis(大数据方法在领土财政分析中的价值)
分布式处理工具提高了效率,处理时间减少85%,并支持未来更高精度的分析。

4.3.1 Contribution to Tax Intelligence(对税务智能的贡献)
本研究与SRI的ORIóN现代化项目一致,展示了如何利用开放数据构建领土智能分析,超越审计功能,为战略规划(如设计区域激励措施、针对外围领土的正规化活动)提供证据。

4.3.2 Scalability and Replicability Potential(可扩展性与可复制性潜力)
Spark + PostGIS + Python架构具有可扩展性和可复制性,技术文档已存入机构存储库。

4.3.3 Temporal Evolution of Taxpayers(纳税人的时间演变)
1993-2024年间纳税人数量呈上升趋势,2019年达到峰值后因COVID-19下降。需注意行政登记标准变化(如强制RUC注册和ORIóN计划中的大规模暂停)对趋势的影响。

4.4 Implications for Future Research(对未来研究的启示)
建议开展纵向分析、整合社会经济变量(如互联网接入、银行基础设施)、更高分辨率分析(教区级)、以及低-低集群的混合方法研究。

4.5 Summary of the Discussion(讨论总结)
结果确认了领土不平等,并在方法论、实证和应用三个层面做出贡献,与集聚理论和核心-外围模型一致。

**结论翻译**
本研究利用集成的Big Data与空间分析管道,分析了厄瓜多尔SRI开放税务登记处数据,考察了纳税人的领土和部门分布。结果证实了财政基础中存在显著的集中模式和空间依赖性,提供了超越传统描述性方法的经验证据。领土分析显示,68%的注册纳税人集中在皮钦查、瓜亚斯和阿苏艾三省,空间基尼系数为0.61。全局莫兰指数0.49(p < 0.001)确认了相邻省份间的空间依赖性,而LISA在建成区识别出5个高-高集群,在亚马逊地区和北部边境识别出6个低-低集群,暗示外围领土存在持续的结构性正规化障碍。从方法论角度看,结合Apache Spark、PostGIS和Python空间库的Big Data架构将处理时间从20分钟缩短至3分钟(针对250万条记录),展示了可扩展性和可复制性。对安巴托、里奥班巴和马查拉等中级城市中低-低集群和多中心集中模式的识别,为设计地理针对性财政政策以减少厄瓜多尔领土不平等提供了实践基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号