一种基于局部-全局信息增强和自适应空间单元的多模态数据融合框架,用于城市功能区绘制:从标准数据集到全球城市验证

《International Journal of Applied Earth Observation and Geoinformation》:A multimodal data fusion framework for urban functional zone mapping based on local-global information enhancement and adaptive spatial units: from standard datasets to global city validation

【字体: 时间:2025年10月23日 来源:International Journal of Applied Earth Observation and Geoinformation 8.6

编辑推荐:

  城市功能区映射框架融合高分辨率遥感图像与多源众包地理数据,提出GLSANet深度语义特征提取模型、多尺度道路约束分割算法及集成学习分类器。在25个全球城市验证中平均准确度达0.906,有效解决传统方法全局-局部特征建模不足、空间单元划分粗略及跨城验证缺失问题。创新性整合CNN与Transformer优势构建GLSANet,通过道路网络约束优化空间单元形态,结合NTL、建筑形态等多维度数据实现高效分类。研究揭示了不同城市功能区分布受地理环境、文化政策及城市化阶段影响显著

  在快速城市化和城市规划日益复杂的大背景下,准确的城市功能区(Urban Functional Zone, UFZ)映射成为了研究城市空间结构、优化城市布局的关键基础。高分辨率(Very High Resolution, VHR)遥感图像和众包地理数据因其在表现多维空间语义方面的能力,成为了城市功能区识别的重要数据来源。然而,当前关于城市功能区映射的研究仍然面临诸多限制,包括对VHR图像中全局和局部特征建模不足、功能区空间单位划分不清晰以及缺乏跨城市验证。为了克服这些限制,本文提出了一种整合VHR遥感图像和众包地理数据的城市功能区映射框架。该框架包含三个主要部分:1)开发一种能够同时捕捉全局语义信息和局部细节的全局-局部尺度注意力网络(Global-Local Scale Attentive Network, GLSANet);2)设计一种结合开放街道地图(OpenStreetMap, OSM)道路约束的多尺度道路约束特征分割(Multi-scale Road-constrained Feature Segmentation, MRFS)算法;3)开发一种结合深度功能语义特征、夜间光强度、三维建筑形态特征以及POI核密度特征的集成学习模型,用于城市功能分类。为了验证所提框架的有效性,我们选取了25个全球城市进行了城市功能区映射研究。结果表明,该框架在不同城市区域具有良好的适应性,实现了平均整体准确度达到0.906的UFZ映射。此外,与其他相关方法的对比分析进一步突出了该框架的优越性能。

城市功能区(UFZ)是指根据特定功能和用途划分的城市区域,例如商业区、工业区和住宅区。这些区域作为城市空间组织的基本单元,有助于监测和分析城市空间结构的演变和动态变化。因此,进行大规模、细粒度的UFZ映射对于了解城市当前状态具有重要意义。VHR遥感图像因其丰富的纹理和空间细节,被广泛应用于UFZ映射,使得城市特征的精细识别成为可能。在深度学习出现之前,研究主要依赖于VHR图像中的浅层特征,如光谱、纹理和空间关系特征,来识别功能区。虽然这些方法对于简单地物覆盖类型较为有效,但难以准确识别具有复杂对象和丰富语义的功能区。现有的深度学习方法主要分为两种网络架构:基于卷积神经网络(CNN)和基于Transformer。尽管CNN在局部特征提取方面表现优异,但其在捕捉功能区之间的长距离空间依赖性方面存在局限,导致难以有效建模整体空间布局模式。相比之下,虽然基于Transformer的网络在全局语义提取方面具有显著优势,但在处理VHR遥感图像时计算成本巨大,且容易丢失关键的局部边界细节信息,从而影响功能区边界的识别准确性。因此,结合CNN和Transformer的混合架构逐渐受到关注。然而,现有的CNN-Transformer架构仍然依赖于单一尺度的学习过程,限制了其捕捉多尺度特征的能力。同时,由于缺乏对功能区细节的指导,分类准确性受到影响。因此,尽管已有研究证明深度学习方法在遥感图像解释中取得了成功应用,但仍然存在一些挑战:1)功能区内部信息复杂,各类地物之间紧密相连,模型需要理解这种潜在的空间相关性。2)功能区由多种地理元素构成,具有复杂的组成、高异质性和多尺度属性,仅使用捕捉地物自然物理属性的图像数据不足以准确识别功能区。

近年来,众包地理数据的应用探索为功能区映射提供了新的视角。随着信息技术的发展,越来越多的大数据开始涌现,这些数据能够反映城市的社会经济功能。通过融合遥感图像与社会数据源,丰富的社会语义特征可以补充深度功能语义特征,从而加深对功能区的理解,提高识别准确性。当前的数据融合方法通常分为三类:数据级、特征级和决策级融合。数据级融合将多模态数据整合为统一格式进行处理,但语义、维度和空间尺度的差异构成了主要挑战。决策级融合在模型输出阶段进行,各模态数据分别处理,结果通过投票、加权或集成方法合并,但未能捕捉模态间的相互关系。特征级融合则分别从各模态中提取特征,并在特征级别进行合并。这种方法更好地利用了特征的互补性,支持灵活、定制化的融合策略。在特征融合过程中,空间单元的大小和形状对结果的准确性和有效性至关重要。如果空间单元过大,会导致相邻功能区特征的过度模糊或过度平滑,使得区域间的细节难以区分,从而降低整体识别准确性。反之,如果空间单元过小,可能无法充分捕捉单个功能区的完整信息,某些POI类型特征可能无法有效融合。因此,选择合适的空间单元对于有效的特征融合至关重要。

城市功能区的空间单元是承载地理单元功能特性的基本实体。选择不同的空间单元会导致观察到的功能区出现显著差异。当前研究通常采用三种方法来生成城市功能区空间单元:基于网格、基于街道和基于对象的方法。基于网格的方法利用均匀网格进行更简单的数据处理和深度学习应用,但其固定形状和尺寸往往与实际功能区边界不一致。基于街道的方法根据道路拓扑定义单元,假设道路块内的功能是统一的,但低等级道路可能分割区域,高等级道路可能引入混合功能,从而降低分区的准确性。基于对象的方法将相邻像素分组为同质块,以更好地反映现实中的土地利用。然而,现有的基于对象的分割技术通常仅依赖于图像特征,忽视了几何形态约束,使得难以实现语义边界与物理边界的空间对齐。因此,需要开发新的方法来分割合适的空间单元。

在全球化迅速发展的背景下,城市的发展呈现出不平衡和多样性的特征。这使得基于单一城市或少数城市的UFZ识别研究难以满足全球城市治理和比较分析的需求。多城市功能区映射研究能够实现不同城市之间功能区信息的比较和分析,为揭示全球城市发展规律和差异特征提供支持。然而,根据现有研究城市(2011年至2024年)的统计,发现80.4%的研究仅关注单一城市,而覆盖两个城市的仅占8.4%。对于少数研究多城市功能区映射的案例,仍存在许多问题:1)缺乏涵盖全球各地的全面研究;2)在功能区空间单元划分的准确性方面仍然存在挑战,以及对全局和局部特征建模不足。因此,进行大规模、跨区域和精细的多城市功能区识别研究具有重要的科学价值和实际意义。

本文提出的框架能够有效解决现有研究中的关键问题,包括对全局和局部特征建模不足、功能区空间单元划分不清晰以及缺乏跨城市验证。该框架通过整合VHR遥感图像和众包地理数据,实现了多尺度信息的编码与解码,从而提升功能区识别的准确性。GLSANet通过建立深度特征提取模型,能够同时捕捉全局语义信息和局部细节,为功能区的识别提供了更强的支持。MRFS算法则通过引入OSM道路网络约束,实现了功能区空间单元的精准划分,解决了传统方法中存在的边界不匹配问题。此外,集成学习模型通过融合多源数据特征,提高了功能区分类的精确度。为了验证该框架的有效性,我们选取了25个全球城市进行实验,结果显示该框架在不同城市区域具有良好的适应性,实现了平均整体准确度达到0.906的功能区映射。此外,与其他方法的对比分析进一步凸显了该框架的优越性能。

城市功能区的空间单元划分是功能区识别的基础。在实际应用中,传统方法如Fractal Net Evolution Approach(FNEA)主要基于形状和光谱特征进行图像分割,旨在最小化段内异质性。然而,这种方法采用阈值合并像素为对象,忽略了道路几何,导致边界与实际功能区不一致。为了克服这一问题,我们提出了MRFS算法,将OSM道路网络约束整合到分割过程中,从而解决了传统方法中边界不匹配的问题。此外,通过多尺度特征提取和道路约束,MRFS算法能够生成具有准确宽度的连续道路区域,提高功能区划分的精度。

在进行功能区映射之前,我们对原始OSM数据进行了预处理。考虑到原始数据中道路种类繁多,我们首先进行了数据筛选,保留了高速公路、主干道、次干道、三级道路和住宅道路。随后,对选定的道路进行了缓冲分析和栅格化处理,以生成具有准确宽度的连续道路区域。最后,通过拓扑修复技术处理剩余的拓扑错误,生成最终的网络。这些步骤确保了道路约束的准确性和完整性,为后续的功能区划分提供了可靠的指导。

为了实现城市功能分类,我们采用了集成学习方法,结合了多源数据特征。这些特征包括深度功能语义特征、POI特征、建筑高度和密度的向量特征以及夜间光强度特征。这些特征能够反映功能区的物理和社会属性,从而增强城市功能识别能力。在训练分类模型时,我们需要使用城市功能区的样本。我们采用GLSANet生成的多尺度特征作为样本,将未标记的像素设为0,其他区域则根据功能类别进行标记。随后,通过区域统计分析,识别每个分割单元的主要功能。选择具有非零样本值的单元作为训练数据。从四个数据源中提取了54个特征,这些特征被整合到每个空间单元中,用于训练分类模型以实现功能区分类。在训练过程中,样本权重被动态调整,减少正确分类样本的权重,增加错误分类样本的权重,直到形成最终模型。训练完成后的模型被应用于对研究区域内的所有块进行分类。

通过对比分析,我们发现即使使用单一模态的深度功能语义特征,也能够实现良好的分类性能,突显了这些特征在功能区识别中的关键作用。引入多源数据进一步提升了准确性。在Beijing中,添加POI核密度、形态数据和NTL数据分别提高了准确性1.2%、1.1%和0.7%;在Shanghai中,这些改进分别为0.7%、0.1%和0.1%。其中,POI数据的影响最大,其次是建筑形态特征,NTL数据的贡献最小。全特征融合在Beijing中比单独使用深度特征提高了3%的准确性,在Shanghai中提高了2.7%的准确性,确认了多模态融合能够通过克服单一数据源的局限性,有效提升性能。

通过分析功能区映射中各特征的重要性,我们发现即使在Beijing和Shanghai中,深度功能语义特征的贡献度也显著超过其他特征类型。这表明本文提出的多尺度深度功能语义特征在跨城市空间语义表示中具有良好的稳健性。在Beijing和Shanghai中,POI特征的总体重要性高于建筑密度、高度特征和NTL特征。然而,POI特征的个体类别贡献度不同,其中机构、商业和住宅类别的贡献度更高。城市POI特征是复合功能签名,而非单一特征,因此整合后的POI特征性能并不能完全反映个体子类别的贡献。

通过对比深度特征提取模型,我们发现GLSANet在功能区识别任务中表现优于其他模型。在Beijing和Shanghai数据集中,GLSANet的Macro-F1分别为0.961和0.924,比第二好的Swin-UNet(0.936和0.907)高了2.5个百分点和1.7个百分点,比传统的UNet(0.921和0.882)高了4个百分点和4.2个百分点。总体而言,这些结果充分表明GLSANet在深度特征提取方面取得了显著的改进。

通过对比现有研究,我们发现本文提出的功能区映射框架在准确性和完整性方面具有显著优势。在Beijing中,我们正确识别了住宅区,与其他三种映射结果相比。在Shanghai中,我们正确识别了工业和商业区,而其他方法在这些区域的识别效果不佳。此外,本文的映射结果相较于其他方法更加完整,减少了碎片化。这些结果表明,通过整合多源数据和多尺度特征,本文的框架能够更准确地识别功能区。

通过统计和空间分析,我们发现功能区分布从根本上塑造了城市配置。住宅区在大多数城市中占据主导地位,其中中国大城市的住宅区以Residential-2为主,而西方城市(如San Francisco、Los Angeles、London、Sydney、Johannesburg)的住宅区则以Residential-1为主。这种空间二元性反映了不同的土地资源、政策取向和城市化阶段:中国的人地约束推动了紧凑型发展,而西方城市则呈现出分散型模式。机构用地在Beijing、London和San Francisco中占比显著,商业区则主导了全球经济中心如Shanghai、Los Angeles和Sydney。这些模式体现了地理和文化差异,为未来城市规划和功能优化提供了关键的参考。

尽管本文提出的功能区识别框架在准确性方面取得了显著进展,但仍存在一些局限性。未来的研究将探索和整合更多多样化的多源异构数据,重点关注高分辨率/时间序列的遥感图像、街景图像、移动定位数据和开放政府数据。此外,将构建一个探索性的语义映射框架,引入跨模态注意力机制,以解决多源数据之间的语义冲突,提高功能区分类结果的一致性和可靠性。这些改进将有助于实现更全面的功能区识别,推动城市规划和管理的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号