编辑推荐:
目前,获取充足带主题标签的数据以提升人工智能分类训练性能受限。研究人员开展 “OSMlanduse:欧盟 10 米分辨率土地利用数据集” 研究,融合 OpenStreetMap 和 Sentinel-2 数据,制成欧盟土地利用图,精度达 89% ,为相关研究提供重要数据支持。
在地球的演化进程中,人类活动对陆地表面产生了深远影响。准确掌握土地利用(LU)和土地覆盖(LC)的时空信息,对于洞悉环境变化和人类活动意义非凡。借助遥感技术、开放数据政策以及人工智能的力量,生成连贯的大面积土地利用 / 土地覆盖(LULC)产品成为可能。然而,当下进一步加速利用这些技术的主要障碍,在于缺乏足够的带主题标签的数据,以提高人工智能在分类任务中的训练性能。
许多非商业性的 LULC 地图,或是源于官方权威发布,或是出自学术研究成果,但这些地图往往在训练数据的获取上有所限制,并非对所有人开放。随着 21 世纪初基于网络的开放数字化时代的到来,公民科学(CS)催生了具有成本效益的 LULC 数据,其中 OpenStreetMap(OSM)脱颖而出。OSM 是一个基于网络的、机会性收集空间明确矢量几何数据并丰富其主题属性的平台,数据主要通过远程测绘或实地采集获得。不过,OSM 数据存在诸多问题,如数据质量参差不齐、内容不完整等。尽管如此,它仍是目前最大且最成功的开放、免费使用的非商业地图项目,被众多商业、政府和非政府机构广泛应用。
在此背景下,来自德国海德堡大学地理信息学系等机构的研究人员,开展了一项极具创新性的研究。他们致力于融合 OSM 和哥白尼数据,打造分辨率达 10 米的土地利用地图。研究最终成功创建了截至 2020 年 3 月的欧盟连续土地利用地图,整体地图精度达到 89%,各类别的精度在 77% - 99% 之间。这一成果发表在《Scientific Data》上,为土地利用研究领域带来了新的突破。
在研究过程中,研究人员运用了多种关键技术方法。首先,从 OSM 中提取已知标签,并将其注入经过预处理的 Sentinel - 2 最佳像素特征空间。其中,特征空间是由 Sentinel - 2 过去三年(截至 2020 年 4 月)的红、绿、蓝(RGB)和近红外(NIR)波段 10 米分辨率的最佳像素中心点合成。利用深度学习技术,在缺少标签的区域预测 CORINE 土地利用标签,进而生成连续地图。为适应不同国家 OSM 数据质量和遥感特征空间属性的差异,研究人员为每个国家单独设置训练数据和特征空间,并采用非参数监督残差卷积神经网络(ResNet)进行遥感数据特征空间的分类。
研究结果丰富且具有重要价值。在数据记录方面,数据集以 10 米空间分辨率的单个 GeoTIFF 文件形式提供(每个欧盟国家和英国各一个文件),遵循 CORINE 土地覆盖(CLC)命名法对土地利用类别进行编码。在技术验证环节,通过使用包含 4616 个参考点的独立参考数据集对产品进行评估,结果显示整体精度为 89%。不过,不同类别之间存在一定的混淆情况,例如 “人工表面” 和 “森林及半自然区域” 这两类,主要是由于 “人工非农业植被区域” 和 “灌木和 / 或草本植被组合” 在光谱上极为相似,导致分类错误。从地图示例来看,不同地区展示出产品的不同特性。像荷兰的乌得勒支省,因 OSM 数据覆盖广泛,深度学习预测需求少,地图能呈现出精细的空间细节;而在一些地区,如意大利的波河谷和匈牙利的巴拉顿湖地区,产品能够有效区分半自然区域和耕地。但在部分区域,由于深度学习分类,也出现了像素化元素,导致空间细节有所损失。
综合来看,这项研究成功实现了 OSM 和哥白尼数据在 10 米分辨率下的大面积融合,为全球土地利用研究提供了可借鉴的方法和重要的数据支持。其意义不仅在于提升了土地利用地图的精度和覆盖范围,更在于为后续相关研究奠定了坚实基础,有助于推动土地利用和土地覆盖领域的深入发展,为更好地理解环境变化和人类活动之间的关系提供了有力工具。