
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于开放数据与计算机视觉技术的韩国零售边界数据集构建及其空间动态研究
【字体: 大 中 小 】 时间:2025年04月15日 来源:Scientific Data 5.8
编辑推荐:
编辑推荐:针对韩国零售边界数据缺失问题,研究团队整合LocalData和V-World开放数据,创新性采用25m网格系统与深度学习集成模型(Deep Ensemble Voting),成功绘制6,636个精细化零售边界。该数据集突破传统行政单元限制,首次实现全国尺度零售集聚区精准识别,为疫情后复苏、零售绅士化及电子商务冲击研究提供空间分析基础。
在零售地理学研究领域,精确界定零售边界对于理解城市商业空间结构、评估经济韧性至关重要。然而韩国作为全球零售业高度发达的经济体,却长期面临全国性精细化零售边界数据缺失的困境。现有数据如SEMAS数据集仅更新至2016年,首尔市政府数据仅覆盖局部区域,且多基于行政单元(如普查区)划分,难以捕捉真实的零售集聚特征。这种数据缺口严重制约了学术界对韩国零售空间动态的研究,特别是在疫情后复苏、电子商务冲击等热点议题上的分析精度。
为突破这一限制,由美国橡树岭国家实验室Byeonghwa Jeong、韩国教育大学Juhwan Song和Younghoon Kim组成的研究团队,创新性地整合政府开放数据与计算机视觉技术,构建了韩国首个全国尺度25m精度的零售边界数据集。研究通过LocalData平台获取涵盖50年历史的128万条零售商数据(含药房、餐厅、卡拉OK等32类业态),结合V-World建筑轮廓数据,采用空间连接技术解决大型商场内多店铺坐标重叠问题。关键创新在于开发了基于无监督图像分割模型(Unsupervised Image Segmentation)的深度学习集成框架,通过10个模型的贝叶斯优化(Bayesian Optimization)和k折交叉验证(k-fold CV),最终采用多数投票机制(阈值≥6)确定零售边界。
技术方法核心包括:(1)数据预处理阶段将零售商点数据与建筑多边形进行空间连接,构建25m网格化零售商密度矩阵;(2)采用Kim等开发的无需标注数据的图像分割模型,通过相似性损失函数Lsim和连续性损失函数Lcon实现空间聚类;(3)利用轮廓系数(Silhouette Score)优化的层次聚类(Agglomerative Clustering)合并相似簇;(4)设置零售商数量≥10且面积≥2,500m2的阈值筛选最终边界。
研究结果部分显示:
讨论部分强调,该研究突破传统行政边界限制,首次实现韩国零售空间的精细化建模。方法论上,25m网格与建筑级数据融合解决了大型购物中心(如Starfield Hanam)的空间表征问题;深度学习集成框架相比单一DBSCAN模型(Song先前研究采用)显著提升聚类稳定性。实践意义在于:(1)为评估疫情对零售业冲击提供空间分析单元;(2)支持零售绅士化(Retail Gentrification)的定量研究;(3)助力电子商务冲击下的商业韧性评估。局限在于数据更新依赖政府开放平台,且缺乏更细粒度验证数据。
这项发表于《Scientific Data》的研究,不仅填补了韩国零售地理数据的空白,其"开放数据+计算机视觉"的技术路线更为全球城市商业空间研究提供了可复用的范式。数据集和代码已在Figshare开源(DOI:10.6084/m9.figshare.27936627),支持后续研究构建时间序列分析,追踪零售边界兴衰演变规律。
生物通微信公众号
知名企业招聘