基于深度聚类与空间机器学习的Lombardy高科技企业生产力自举分析

【字体: 时间:2025年08月16日 来源:Regional Science Policy & Practice 1.7

编辑推荐:

  针对传统自举方法在空间依赖性和复杂属性关系保留上的不足,研究人员提出了一种结合深度学习(DEC算法)与空间机器学习的创新框架,通过实体嵌入和自动编码器构建空间-属性联合分层,显著提升了Lombardy地区高科技企业生产力分析的准确性与鲁棒性。该研究为高维空间数据统计推断提供了新范式。

  

在当今数字经济时代,高科技企业的空间分布与生产力演变规律是区域经济研究的核心议题。传统分析方法面临两大困境:一方面,空间自举技术难以兼顾地理坐标与多维属性(如行业分类、企业规模)的复杂关联;另一方面,高基数分类变量(如意大利ATECO行业代码)的处理常导致维度灾难。这些局限使得区域创新集群的动态评估和政策制定缺乏精准数据支撑。

针对这一挑战,Universitas Mercatorum(罗马马恰托伦大学)工程与科学系的Bumbea Alessio团队在《Regional Science Policy》发表了一项突破性研究。他们创新性地将深度嵌入聚类(Deep Embedded Clustering, DEC)与分层自举相结合,构建了能够同时捕捉空间邻近性和语义相似性的分析框架。通过实体嵌入技术将ATECO代码等分类变量转化为连续向量,并利用自动编码器实现非线性降维,最终在Lombardy地区24,976家高科技企业的海量数据中识别出11个具有显著经济地理特征的聚类。

研究采用三大关键技术:1)基于神经网络的实体嵌入处理高基数分类变量;2)DEC算法联合优化特征表示与聚类分配,通过KL散度最小化提升簇纯度;3)以聚类结果作为分层依据进行空间自举分析。数据来源于ISTAT的ASIA企业注册数据库,涵盖2017-2019年109维特征。

研究结果揭示:

  1. 1.

    聚类作为分层:DEC生成的11个聚类呈现明显空间-行业混合特征(如Cluster 7集中了65%的制药企业),证明算法能有效区分地理邻近但属性相异的企业。

  2. 2.

    生产力相关性:分层自举显示2018-2019年生产力相关系数达0.9317,远超全样本计算的0.7150,表明传统方法严重低估了空间同质性子群内的稳定性。

  3. 3.

    行业异质性:IT服务业虽占样本总量66%,但被DEC细分为多个技术路线差异显著的子群,印证了"知识本地化"经济理论。

这项研究的里程碑意义在于:首次实现了空间机器学习与计量经济学的深度融合,为区域创新政策评估提供了可解释的分析工具。其提出的"属性-空间联合嵌入"范式,不仅解决了高维分类数据处理的经典难题,更通过DEC算法揭示了传统指标(如基尼系数)无法捕捉的微观集群结构。未来方向包括引入图神经网络增强空间显式编码,以及开发时空交叉验证技术。该框架已在Bolivia经济区划、伊朗走私热点分析等场景显现出跨领域应用潜力,为复杂经济系统的数字化治理提供了新方法论。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号