俄罗斯企业财务数据库(RFSD):首个涵盖全国企业完整财务数据的开放数据集及其经济分析应用

【字体: 时间:2025年06月14日 来源:Scientific Data 5.8

编辑推荐:

  本研究为解决俄罗斯企业级财务数据分散、商业数据库覆盖不全等问题,由欧洲大学圣彼得堡分校团队构建了首个开放的国家级企业财务数据库(RFSD)。该研究整合2011-2023年5660万条企业年度观测数据,创新性地包含未申报企业信息,通过数据填补和报表勾稽等技术提升数据质量。验证显示其区域GDP相关性优于现有空间化GDP产品,为校准微观模型、估算市场力量等经济研究提供全新工具。

  

在经济学研究中,企业级财务数据如同显微镜下的细胞观察,能揭示宏观经济指标无法捕捉的微观动态。然而长期以来,俄罗斯企业数据被商业数据库垄断,存在严重的选择偏差——Moody's Ruslana仅覆盖10%的工资就业,对房地产、教育服务等行业代表性不足。更棘手的是,商业数据存在单位定义模糊、编码错误频发、访问成本高昂等系统性缺陷,这些问题可能实质性影响研究结论。当学者们试图分析企业生产率、市场集中度或政策效果时,数据质量的"雾霾"严重阻碍了科学认知的清晰度。

欧洲大学圣彼得堡分校法治研究所的Sergey Bondarkov、Viktor Ledenev和Dmitry Skougarevskiy团队决心拨开这层迷雾。他们从俄罗斯联邦税务局(FNS)和联邦统计局(Rosstat)获取行政数据,构建了俄罗斯财务数据库(RFSD)——这是首个包含2011-2023年所有活跃企业完整财务记录的开放数据集。研究团队如同经济数据的"考古学家",不仅挖掘了2560万份已申报报表,还通过独创性的"地层修复"技术,从后续年份报表中逆向重建了306万份缺失数据。更突破性的是,他们首次系统记录了3140万条未申报企业记录,为研究选择偏差打开了全新视角。

研究采用多阶段技术方案:首先通过API获取企业注册信息(EGRUL)建立全样本框架,然后定义申报义务企业范围(排除政府机构、宗教组织等豁免主体),接着从官方渠道获取原始报表并进行跨年数据填补。团队开发了自动化校验系统,基于67个会计等式验证报表勾稽关系,对误差超过4000卢布的数值进行自动校正。为提升空间分析价值,研究者采用OpenStreetMap Nominatum对注册地址进行地理编码,使88.8%的企业能精确定位到街道或建筑物级别。

研究结果揭示了一系列重要发现。数据质量验证显示,RFSD的区域经济总量与官方GDP相关性(r2
=0.91)显著优于Chen等学者的空间化GDP产品(r2
=0.45)。与商业数据库Orbis的对比更凸显其价值:RFSD包含5.8万家营收超百万美元但被Orbis遗漏的企业,这些"隐形冠军"贡献了8020亿美元营收。研究还发现了令人担忧的申报行为模式:战略企业(如Gazprom)的申报概率降低23%,而受国际制裁的企业申报率额外下降5.8%。状态监测显示,企业退出市场前一年的未申报概率激增31.3%,这种"临终沉默"现象为理解企业生命周期提供了新维度。

在讨论部分,研究者强调RFSD打破了商业数据垄断,为俄罗斯经济研究提供了"基准真相"。该数据库特别适合三类研究:一是校准具有微观基础的宏观经济模型,二是估算企业层面的生产率和加成率,三是分析产业组织与市场力量。研究同时警示数据局限:未申报企业可能存在系统性差异,且数据库采用法律实体而非经济实体作为统计单位,可能高估集团内交易。随着2022年后俄罗斯扩大财务数据保密范围,已有1000多家企业从公开记录中消失,这种"数据黑箱化"趋势值得持续关注。

这项研究的意义如同在经济测量领域树立了新的"米原器"。通过将行政数据转化为研究级资源,RFSD不仅解决了特定国家数据缺口,更为其他新兴市场构建企业级数据库提供了技术范本。研究者承诺将持续更新这一开放资源,并呼吁学界共同探索数据填补、异常值检测等方法创新,以应对日益复杂的企业数据环境。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号