MSLU-100K:解锁中国城市土地利用分析的多源大数据宝藏

【字体: 时间:2025年05月08日 来源:Scientific Data 5.8

编辑推荐:

  为解决土地利用数据集构建难题,提升土地利用分类研究水平,研究人员构建 MSLU-100K 多源土地利用数据集。该数据集含超 10 万样本,经多种方法评估分级。其为土地利用研究等提供有力支撑,意义重大。

  在城市发展的宏大版图中,土地利用规划就像精准的导航仪,指引着城市建设的方向。然而,构建高精度的土地利用分类模型面临诸多挑战。一方面,全球城市化进程加快,城市土地利用类型日益复杂,不同类型土地在空间上交错分布,比如商业区、住宅区和工业区可能相邻甚至部分重叠 ,这使得数据采样和标注困难重重。另一方面,现有的土地利用数据集在数据量、标签数量和区域重点等方面差异较大,质量参差不齐,严重影响分类模型的性能。因此,获取高质量的土地利用数据集,成为推动城市规划和可持续发展研究的关键。
中国地质大学(武汉)等机构的研究人员开展了一项具有开创性的研究,构建了 MSLU-100K 多源土地利用数据集。这一数据集涵盖了中国 81 个城市的 10 万多个不规则地块样本,为土地利用研究提供了丰富的数据资源。相关研究成果发表在《Scientific Data》上。

研究人员在构建 MSLU-100K 数据集时,运用了多种关键技术方法。首先是数据收集与处理,整合了如行政划分数据、道路网络数据、遥感影像数据、POI(Point of Interest,兴趣点)数据以及腾讯用户密度数据等多源数据。接着进行样本筛选,根据地块的大小和位置确定最优范围,过滤掉噪声数据。还采用人机协作的方式构建数据集,利用模型辅助预标注,结合手动标注,不断优化模型性能。最后,通过基于手动过滤的多级模型分类方法和基于模型软分类概率的分级方法,对数据集质量进行评估。

数据记录


MSLU-100K 数据集结构包含两个文件夹、一个 Python 程序和一个 CSV 文件。“Classification” 文件夹存放样本的 XML 格式元数据,“ImageSets” 文件夹按土地利用类型分类存储遥感图像。运行 “DatasetGenerate.py” 程序可生成数据集表 “MSLU-100K.csv”,其中详细记录了样本各类信息。该数据集在 Open Science Framework 上免费公开获取,为相关研究提供了便利。

技术验证


  1. 数据集质量评估统计结果:通过两种评估方法发现,MSLU-100K 数据集中 4 级和 5 级高质量数据约占 57.1% ,且多集中在住宅、农业和工业等类别。两种评估方法侧重点不同,基于手动过滤的方法在识别能力上有优势,但对特定类别适应性不足;基于模型软分类概率的方法在处理数据不确定性方面表现更好,未来可考虑将两者结合,提升数据分类效果。
  2. 模型性能评估:研究人员用完整数据集和不同质量级别的样本数据集训练模型,结果显示,高质量小数据集训练的模型在识别土地利用功能上表现更优。如在 5 级数据集上,测试准确率和 kappa 值都较高。不过,基于模型软分类概率的方法在筛选高质量数据集时存在局限性,部分样本可能因概率误判导致无法有效区分高低质量样本。
  3. 土地利用映射结果:MSLU-100K 数据集样本在南方城市分布更密集,这与城市化进程、土地利用复杂性和经济发展差异有关。利用该数据集训练模型进行土地利用预测,整体准确率达 71.5%。但大小不同的地块预测准确率低于整体水平,大地块因位于偏远地区、内部土地利用类型多样或用途混合,小地块因信息有限、土地利用类别相似等原因,容易出现预测错误。同时,由于数据集在长三角地区集中,模型对该地区特征捕捉更好,导致不同地区映射准确率存在差异。

MSLU-100K 数据集的构建,有效填补了中国城市土地利用研究的重要数据空白。研究提出的结合手动方法和深度学习的数据质量评估系统,为土地利用数据集质量评估提供了新的方法标准,对微观尺度的城市土地利用分类、城市发展和规划具有重要的参考意义。不过,该研究也存在一些局限性,如标注过程受人为因素影响,存在标注错误和耗时问题,对 “商业区” 等类别识别准确率有待提高。未来研究可通过增强数据平衡、采用更先进的模型解释技术等方式加以改进,进一步挖掘 MSLU-100K 数据集的潜力,推动土地利用研究的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号