《Remote Sensing》:High-Rise Building Area Extraction Based on Prior-Embedded Dual-Branch Neural Network
编辑推荐:
本文提出了一种先验嵌入双分支神经网络(PEDNet),通过融合卷积神经网络(CNN)的局部特征提取和视觉Transformer(ViT)的全局上下文建模,并嵌入空间位置(SE)和时间戳(TE)先验信息,显著提升了Sentinel-2遥感影像中高层建筑区域(HRB)的跨地域、跨时相提取鲁棒性。该方法有效解决了传统模型(如FCN、U-Net)因局部感受野限制导致的全局依赖关系建模不足,以及先进模型(如DeepLabV3+、BuildFormer)对影像光谱、纹理特征时空变异适应性差的问题。实验表明,PEDNet在F1分数、交并比(IoU)和总体精度(OA)上均优于对比模型,为大规模城市监测提供了可靠工具。
引言
在快速城市化和土地资源有限的驱动下,中国城市区域正从“横向扩张”转向“垂直增长”。高层建筑区域(HRB)是这一转变的核心,也是城市发展潜力的关键指标。与低层建筑群相比,HRB最大限度地利用了垂直空间,重塑了城市布局,并显著影响了城市功能。它们作为混合用途空间,结合了商业、住宅和办公区域,直接影响人口流动和公共服务分布。其广泛分布反映了经济活力,但也对基础设施容量提出了挑战。因此,准确绘制HRB的空间分布对于城市规划和可持续增长至关重要。
目前,学术界对HRB没有统一的定义,不同研究根据目标强调不同方面:工程标准通常使用高度阈值(如24米或27米)作为主要标准;而地理研究则强调其空间聚类性,将“建筑集群”视为统一实体。本研究与“区域适应性”保持一致,将HRB定义为平均高度超过25米、呈现连续空间分布、并与周围土地利用形成功能联系的建筑集群。这一定义保留了高度作为可测量指标,同时突出了其作为城市功能单元的集群特征,与遥感图像中“面状目标”的提取特征相一致。
从遥感解译的角度来看,提取HRB仍然具有挑战性,特别是当HRB在区域尺度上表示为连续的城市集群而非孤立的单个结构时。由于其复杂的三维结构和密集的空间聚集,HRB极易受到成像几何效应(如离天底点观测和地理参考不确定性)的影响,这可能导致区域层面的空间位移和形状畸变。在密集的城市环境中,高度引起的遮挡和建筑重叠进一步导致光谱混合和区域边界模糊,而光照条件、季节变化和周围土地覆盖背景的差异引入了显著的类内变异。这些因素共同使得HRB与其他城市土地覆盖类型的区分变得复杂,对稳健且可迁移的区域级提取方法提出了重大挑战。
材料与方法
数据
本研究选择了中国四个省会城市——哈尔滨、北京、郑州和广州——作为研究区。这些城市南北跨度大,涵盖了从寒温带到亚热带的气候带。这种大的地理跨度导致了建筑风格和景观特征的显著差异。同时,在同一时期,这四个城市的光照条件也显著不同。这些变化直接影响遥感影像的光谱特征,为评估模型的鲁棒性创造了理想条件。
本研究构建了一个涵盖多个区域和成像时间点的HRB检测数据集。所有影像均为512×512像素的RGB波段TIFF文件,空间分辨率为10米。影像文件命名格式遵循“城市ID成像时间戳区域ID”的约定。所选影像成像质量高,覆盖了四季的代表性获取日期。HRB的真实标签是基于高度驱动的标准生成的,其中平均高度超过25米的建筑被分类为高层建筑,并编码为像素级分割掩码。
PEDNet模型
本研究设计了PEDNet模型,用于稳健地提取HRB。模型的编码器有两条并行的特征提取路径。一条是ViT特征路径,专注于全局语义特征提取。该路径在先验嵌入块(PEBlock)中使用先验嵌入窗口注意力(PEWA)结构来捕获先验信息。这使得模型能够有效捕捉跨区域和跨时相的长程特征关联。第二条路径是卷积特征路径。该路径利用卷积神经网络的局部感受野优势,专注于提取细粒度的空间细节和局部语义信息。这两条路径并行工作,从全局和局部角度提取遥感图像特征。最终,解码器融合两条特征流,输出HRB提取结果。
模型接受空间分辨率为10米的512×512图像块作为输入。每个输入样本包含三个RGB通道、两个时间戳信息通道和一个空间信息通道。时间戳通道编码成像年份和年积日(DOY),而空间通道代表相应的城市标识符。时间戳和空间信息被视为图像级元数据,并广播为常数值的512×512特征图,以匹配输入图像的空间分辨率。这些特征图与RGB通道连接形成最终的输入张量。
ViT特征路径包括一个Stem模块和四个Stage模块。茎模块通过两次卷积操作对输入图像进行初步特征提取。每个Stage随后使用集成了PEWA机制和多层感知机(MLP)的多层PEBlock结构逐步细化特征。PEWA通过结合来自空间嵌入(SE)(编码城市ID)的空间编码和来自时间嵌入(TE)(编码成像时间戳)的时间编码来学习此类先验信息。
PEWA的核心过程包括四个步骤:特征映射生成、空间和时间戳编码融合、相似性计算和注意力输出。它使用16×16的窗口划分来平衡建筑尺度覆盖和背景干扰。为了应对传统自注意力O(N2)的计算瓶颈,采用了L2归一化和softmax函数的泰勒级数近似来线性化权重计算,将复杂度降低到O(N)。
损失函数
为了解决HRB提取中遇到的边缘细节丢失、几何结构保持困难以及土地覆盖类型分布不平衡(HRB通常只占图像的小部分)的问题,本研究采用了结合多个损失函数的策略。模型设计采用“总损失 = 几何约束损失 + 边缘损失”的结构。边缘损失分解为交叉熵-Dice联合损失、二元交叉熵损失和焦点损失。总实验损失Lte的数学表达式为加权和:Lte= α ? Lgeometry+ (β ? Lscd+ γ ? Lbce+ δ ? Lfocal),其中α、β、γ、δ为通过初步实验经验确定的权重参数。
几何约束损失是一种增强模型输出空间连续性的正则化项。交叉熵-Dice联合损失函数由平滑交叉熵损失和Dice损失组成,平衡了像素级分类精度和整体结构相似性。二元交叉熵损失通过计算模型预测边界图与实际边界图之间的差异,约束边界区域预测的准确性。焦点损失在高度不平衡的数据集中有效,通过减少“易分类背景像素”的权重,专注于难以分类的HRB像素。
结果与分析
PEDNet模型结果
为了验证作为PEWA内置机制的SE和TE的作用,本研究基于PEDNet模型设计了四个消融实验:PEDNet_Base(禁用SE和TE)、PEDNet_SE(启用SE)、PEDNet_TE(启用TE)和PEDNet_SE+TE(同时启用SE和TE)。
定量结果显示,PEDNet_SE在所有指标上表现最佳,F1分数、IoU和OA分别达到62.8%、45.8%和91.3%。PEDNet_TE次之。PEDNet_SE+TE的F1和IoU值相对较低,表明在当前设置下同时启用SE和TE机制可能导致特征干扰或协同不足。PEDNet_Base是性能最差的网络。
可视化结果进一步证实了这一点。在郑州(冬季)和哈尔滨(秋季)的典型样本中,PEDNet_SE模型在捕获HRB方面表现出色,能够准确、完整地识别HRB,展现出强大的特征提取和目标识别能力。而PEDNet_SE+TE模型在细节处理上稍逊于PEDNet_TE模型,对细微HRB特征的捕捉存在一定困难。注意力可视化分析表明,当空间和时间戳嵌入同时应用且没有明确协调时,它们的组合指导可能会相互干扰,导致对HRB区域的注意力集中度减弱,从而降低分割精度。
与传统方法的比较
为了全面评估PEDNet模型在高層建筑区域分割方面的性能,本研究与代表性的语义分割架构进行了交叉模型对比实验,包括经典的CNN模型(U-Net和FCN)、高性能CNN分割模型(DeepLabV3+)以及代表性的Transformer架构(BuildFormer)。
定量实验结果表明,PEDNet_SE模型在F1分数、IoU和OA上均优于U-Net、FCN、DeepLabV3+和BuildFormer模型。PEDNet_SE的F1分数为62.8%,IoU为45.8%,OA为91.3%。
可视化比较(如郑州秋季和北京冬季的样本)显示,PEDNet_SE模型对高层建筑区域的分割结果更清晰、连续。在红色高亮区域内,PEDNet_SE有效覆盖了大型建筑群,同时保留了更小、更分散的建筑单元,碎片化物体的边界细节保持相对较好。相比之下,U-Net模型表现出明显的目标碎片化,FCN模型分割结果相对粗糙,DeepLabV3+模型区域连续性有所改善但仍存在部分碎片和遗漏,BuildFormer模型保留了主要建筑群的整体结构,但误分类区域仍然存在,且紧密相邻建筑之间的狭窄间隙未能持续分离。
讨论与结论
根据来自四个不同城市和地区的多个测试样本的可视化结果,可以观察到城市间存在轻微的性能差异。这些差异可能与城市环境和成像条件的固有差异有关,例如影响光照和季节外观的气候因素、影响空间连续性的建筑风格和建筑密度变化,以及Sentinel-2成像质量的局部差异。这些因素不可避免地影响了HRB的视觉特征,并导致了跨城市性能的差异,这代表了跨区域城市遥感任务中的常见挑战。
需要指出的是,本研究侧重于HRB的区域尺度制图,而非单个建筑足迹的精确 delineation。因此,显式的实例级边界正则化不是本框架的主要重点。尽管如此,通过几何约束损失和边缘感知损失部分地鼓励了几何一致性,这促进了区域层面的空间平滑度和边界连续性,并有助于抑制孤立或虚假的预测。分割掩码中建筑大小的变化自然源于不同城市环境中高层建筑的异质空间组织和密度。更明确的边界正则化和实例级细化策略留待未来研究。
从更广阔的视角看,本研究的发现与我们之前的研究一致,表明结合全局上下文信息可以缓解纯卷积架构在复杂城市场景中的局限性。在此基础上,本研究进一步证明,显式嵌入区域级和时间戳先验信息可以增强HRB提取在跨区域和跨时间戳场景下的鲁棒性。此外,消融实验和注意力可视化分析表明,虽然单独的空间或时间先验可以有效地指导特征学习,但它们的直接组合而没有明确的协调可能会导致注意力响应竞争,这凸显了结构化先验整合的重要性。
总结而言,本研究提出了PEDNet,一种用于从跨空间、跨时间戳的Sentinel-2影像中区域尺度提取高层建筑区域的先验嵌入双分支神经网络。通过整合卷积特征学习与基于Transformer的全局上下文建模,并显式嵌入区域级和时间戳先验信息,PEDNet有效增强了对复杂城市场景中空间异质性和时间变化的鲁棒性。实验结果表明,所提出的框架在HRB提取方面优于代表性的基于CNN的混合分割模型。虽然当前的实现侧重于单一数据集和区域级制图,但所提出的先验感知设计为未来的扩展提供了灵活的基础。进一步的工作将探索结构化的先验协调机制,以及多源数据或基础模型的集成,以在更多样化的城市和成像条件下提高泛化能力。