多模态遥感与弱监督学习在干旱区湿地精细分类中的协同效应：以博斯腾湖湿地-农田镶嵌景观为例

《Land》：Structural-Functional Suitability Assessment of Yangtze River Waterfront in the Yichang Section: A Three-Zone Spatial and POI-Based Approach

【字体：大中小】 时间：2026年01月04日 来源：Land 3.2

编辑推荐：

　　本文系统评估了多模态遥感数据融合（Pleiades与PlanetScope-3）与不同监督范式（全监督FCN、U-Net、DeepLabV3+、SegFormer与弱监督OME）在干旱区湿地复杂场景下的分类性能。研究表明，SegFormer凭借其注意力机制获得最优性能（准确率98.75%，mIoU 95.33%），而弱监督OME仅使用图像级标签即可达到媲美全监督的精度（准确率98.76%，F1-score 92.82%），显著降低了标注成本。多模态数据融合有效提升了所有模型的边界识别能力，为干旱区湿地高精度、低成本的动态监测提供了可行范式。

引言

湿地作为独特的生态系统，在维持区域生态安全、保护生物多样性以及调节水文和气候方面发挥着不可替代的作用。以中国干旱区最大的内陆淡水湿地——新疆博斯腾湖为例，其湖滨带在气候变化和人类活动影响下已演变为典型的湿地-农田镶嵌景观。这种复杂的景观格局加剧了水资源竞争和非点源污染风险，对湿地生态系统的完整性构成直接威胁。因此，精确刻画该复合景观内湿地与农田的时空分布，成为划定生态保护红线、评估生物多样性栖息地和优化农业水资源配置等关键管理举措的基本前提。

遥感（RS）技术因其覆盖范围广、可周期性观测等优势，已成为湿地植被识别和信息提取不可或缺的工具。然而，湿地生态系统普遍存在光谱混合现象突出、地物边界模糊以及季节性变化显著等特点，加之遥感影像固有的噪声干扰，给传统分类方法在特征表达和模型鲁棒性方面带来巨大挑战。近年来，深度学习（DL）革命性地推动了遥感图像分类的发展。特别是在语义分割领域，全卷积网络（FCN）、U-Net等架构能够自动提取多层次空间-语义特征，显著提升了复杂场景下的分类精度，成为该领域的主流方法。但这类全监督深度学习方法严重依赖大量高质量标注样本，湿地特征类别的复杂性和异质性，加之人工标注成本极高，严重限制了其在湿地分类中的实际应用。因此，发展标注效率高、适应性强的智能分类方法已成为湿地遥感领域亟待解决的关键问题。

弱监督学习（WSL）为应对湿地分类中标注数据稀缺的核心挑战提供了高效解决方案。与传统方法依赖像素级精细标注不同，弱监督学习仅需图像级标签、点标注或边界框标注等粗粒度弱标签即可实现准确的语义分割。近年来，该技术在遥感领域取得显著进展，技术路径从类激活图（CAM）优化方法（如CAM、AdvCAM、SC-CAM）逐渐成熟，这些方法利用分类网络的激活图初步定位目标区域，再到通过对抗擦除方法逐步定位目标区域以提高分割精度。然而，这些方法大多局限于二元分割或简单场景，难以满足复杂景观中细粒度分类的需求。为克服这一局限，近期提出的“一个模型就足够”（OME）框架引入了样本过滤机制和共现评估指标来优化训练样本质量，并进一步提出了基于多类CAM的不确定性驱动像素级加权掩码方法，显著提升了多类场景下的分割性能。尽管如此，这些方法在具有复杂光谱-空间异质性的干旱区湿地-农田镶嵌景观中缺乏系统验证，且面临高分辨率影像成本高昂、中分辨率数据缺乏细粒度判别所需空间细节的实际数据困境。

在数据层面，多模态遥感数据融合技术的发展为湿地的精细分类和动态监测开辟了新途径。不同传感器的数据各有优劣：光学影像能反映丰富的地物表观细节但易受气象条件影响；高光谱影像具有连续丰富的光谱信息利于细微特征区分但空间分辨率通常有限；雷达影像可穿透云雨适于全天候监测但其信号易受地表粗糙度和介电特性影响。通过融合多模态遥感数据可以整合不同来源的互补信息。先前在湿地背景下的研究已证明其在监测水文动态和植被演替方面的潜力。对于干旱区湿地-农田镶嵌分类这一特定任务，关键在于融合高空间细节与丰富光谱信息的同时保持光谱保真度。在各种融合算法中，Gram-Schmidt（GS）方法因其在多波段融合中强大的光谱保持能力而受到认可。

研究区域与数据集

本研究选择博斯腾湖（86°40′–87°56′ E, 41°56′–42°14′ N）作为研究区，它位于中国新疆巴音郭楞蒙古自治州中部，是中国干旱区最大的内陆淡水湖，也是塔里木盆地的重要生态屏障。研究重点聚焦于博斯腾湖北部的湿地生态系统，系统分析典型湿地景观（包括开阔水体、芦苇群落、退化芦苇、泥滩、农田和裸地）过渡带中的时空异质性和光谱混合现象，特别评估全监督和弱监督学习范式在这些复杂场景中识别地物类别的能力。

为兼顾高空间分辨率和不同地物的光谱特征，本研究选取Pleiades和PlanetScope-3两种数据源构建多模态遥感数据集。Pleiades数据由空中客车防务与空间公司提供，全色波段空间分辨率为0.5米，多光谱（蓝/绿/红/近红外）分辨率为2米，成像宽度约20公里，能够精细刻画湿地植被群落结构、水体与陆地的空间过渡带及其异质性。PlanetScope-3数据由Planet Labs公司提供，包含8个光谱波段，空间分辨率为3米。本研究使用其3B级产品，该产品经过传感器辐射校正、基于Sentinel-2的几何配准和正射校正，并利用6S辐射传输模型和MODIS近实时大气参数进行了大气校正，有效消除了气溶胶和水汽的影响，确保了多时相数据的辐射一致性，为后续分类提供了可靠的光谱基准。

数据预处理遵循标准化的多工具工作流，将所有图像数据统一投影至WGS_1984_UTM_Zone_45N坐标系以确保空间参考一致性和地理定位精度。通过2024年夏季的实地湿地植被调查，利用手持全球定位系统（GPS）设备精准定位了研究区内不同的土地利用和覆盖类型，共采集代表19种典型地物类型的697个样本点。随后基于ArcGIS 10.2平台进行地理空间数据处理，包括多模态遥感数据融合、几何精校正、图像裁剪和波段合成等预处理步骤，并以此为基础，结合野外GPS数据和专家知识指导的目视解译，准确勾绘样本区并标注，建立了初步的标注数据集。

为满足深度学习模型对固定尺寸输入的严格要求，利用PyCharm 2025.2.4开发环境，将大尺寸原始图像及其对应的标签掩码系统性地裁剪成30×30像素的图像块。裁剪过程采用重叠采样策略，设置相邻图像块之间的重叠区域为3像素。此策略有两个优点：一是通过滑动窗口机制生成具有细微差异的样本，实现高效数据增强；二是显著缓解了图像块边缘预测精度下降的常见问题，为后续预测结果的无缝拼接奠定了坚实基础，确保了最终预测结果的整体一致性和空间连续性。

针对数据集中类别不平衡的问题，特别是“草地”类别样本严重缺乏的情况，执行了有针对性的数据增强策略。通过对原始草地样本施加90°、180°和270°的旋转变换，使样本数量增至三倍，并将增强后的样本加入数据集。此方法不仅缓解了类别不平衡，还通过引入旋转不变性增强了模型对草地的识别精度和泛化性能。

基于上述处理，成功构建了一个大规模语义分割数据集。该数据集共包含9296对图像-标签样本，严格按照标准机器学习实践以8:1:1的比例划分为三个子集：训练集包含7414个样本，用于模型参数学习和优化；验证集包含941个样本，用于在训练过程中监控模型性能和调整超参数以防止过拟合；测试集同样包含941个样本，作为完全独立于训练过程的集合，用于最终客观评估模型的泛化能力和鲁棒性。

在数据存储方面，原始输入图像以TIFF格式存储以最小损失保留空间细节和光谱信息，而对应的标注标签则以PNG格式存储为无损灰度图像，像素值范围1至19对应19个预定义的语义类别。所有数据按统一目录结构组织，图像文件存储在“images”文件夹，标签文件存储在“masks”文件夹，这两个主文件夹下又分别设有“train”、“val”和“test”子目录，确保每个图像文件都能与其对应的标签文件精确匹配，为模型训练提供了可靠基础。

研究方法

为应对湿地遥感分类中样本标注成本高和 multimodal 数据协同利用不足的核心挑战，本研究开发了一个集成多模态遥感数据与弱监督学习的技术框架。该框架利用ArcGIS 10.2和PyCharm 2025.2.4平台，通过Gram-Schmidt融合方法整合Pleiades和PlanetScope-3卫星的遥感数据，结合弱监督学习方法，旨在仅使用少量标注样本实现高精度分类，为湿地地物分类提供高效且可复用的解决方案。

在数据预处理阶段，选取2024年6月获取的无云高质量影像，应用Gram-Schmidt方法将Pleiades卫星的0.5米全色数据与PlanetScope-3卫星的3米多光谱数据融合，生成兼具高空间分辨率和多波段光谱信息的高精度融合影像，为后续湿地精细分类奠定数据基础。在样本制备方面，通过系统的实地调查，辅以人工目视解译和GPS验证，构建了覆盖典型地物类别的标准化样本数据库，确保了样本在类别和空间分布上的代表性，为模型训练和精度验证提供了可靠依据。

在分类模型构建方面，本研究比较分析了多种传统全监督分类器（FCN、U-Net、DeepLabV3+、SegFormer）和以OME为代表的弱监督学习方法在不同场景下的分类性能，系统评估了各类方法在特征表达、泛化能力和边界保持等方面的表现，旨在识别适用于湿地高分辨率遥感分类的有效范式，为类似生态区域的研究提供参考。

语义分割方法

为系统评估不同监督范式下的语义分割性能，本研究选取了具有代表性的全监督和弱监督方法进行比较。所选全监督方法包括FCN、U-Net、DeepLabV3+和SegFormer等经典架构，它们均依赖像素级标注进行端到端训练。弱监督方法则以OME为代表，它仅基于图像级标签生成伪掩码，遵循“图像级标注→伪标签生成→分割网络训练”的两阶段框架，旨在探索在缺乏像素级标注的情况下实现准确湿地地物分割的可行性。

全监督方法

•
FCN：由Long等人于2015年提出，是语义分割领域的开创性工作，首次实现了端到端的像素级预测。其核心是用卷积层替换分类网络的全连接层以支持任意尺寸输入。FCN采用编码器-解码器结构，编码器进行特征提取，解码器使用转置卷积对特征图上采样。其关键创新是引入了跳跃连接，融合深层语义信息和浅层空间细节，显著改善了边界精度，为该领域奠定了基础。
•
U-Net：由Ronneberger等人于2015年提出，是一种基于FCN的对称U型编码器-解码器架构。其核心创新是密集的跳跃连接，将编码器层的高分辨率特征直接与解码器的对应层融合，有效保留了空间细节。这种设计使得U-Net即使在少量标注数据下也能实现精确定位，特别适用于像医学图像分析这样标注数据有限的任务。
•
DeepLabV3+：由Chen等人于2018年提出，是DeepLab系列模型的进一步发展。作为DeepLabV3的扩展，该模型引入了编码器-解码器结构，并融合了Xception主干网络以增强特征提取。编码器端采用空洞空间金字塔池化（ASPP），通过空洞卷积捕获多尺度上下文信息。解码器端对高层语义特征进行上采样，并与编码器的低层特征融合，以平衡语义丰富度和边界细节。该模型通过空洞卷积在保持分辨率的同时扩大感受野，显著提升了复杂场景的分割性能。
•
SegFormer：由Xie等人于2021年提出，代表了一种新趋势。它采用纯Transformer编码器，通过自注意力全局建模上下文关系，以及一个轻量级的MLP解码器，统一对多尺度特征进行上采样、拼接和融合。该设计完全摒弃了卷积的归纳偏置，增强了其捕获长程依赖的能力，在效率和精度方面均表现出色，为语义分割提供了新范式。

弱监督方法

OME 是一个专为遥感影像多类土地覆盖分类设计的图像级弱监督语义分割框架。该框架通过整合样本过滤和数据集共现评估机制，构建高质量的图像级训练样本集。随后，它利用多类激活图生成像素级加权掩码，显著降低了伪标签中的噪声。OME的一个关键贡献是其不确定性加权的损失函数，该函数在模型训练过程中减轻了伪掩码中标签噪声的影响。该方法将像素级加权掩码W（定义为W = 1 - U，其中U表示不确定性掩码）纳入标准交叉熵损失中，通过动态调整每个像素对损失的贡献，将模型焦点导向高置信度的标注区域，从而提升分割性能。

在图像融合方法上，本研究采用Gram-Schmidt方法对Pleiades高分辨率全色图像（0.5米）与PlanetScope-3多光谱图像（3米，8波段）进行融合，分辨率比为6:1。选择此方法源于其在光谱保真度、空间细节注入能力和算法适用性方面的综合优势。GS算法通过其正交变换有效保留了八个波段的光谱独立性和结构完整性，为后续土地覆盖分类和植被指数反演提供了可靠的光谱基础。此外，其分量替换策略有效融入了Pleiades影像的精细空间细节，从而显著提升了融合产品的空间分辨率。相较于PCA和NNDiffuse等方法，GS算法在光谱保持、计算效率和细节保留方面表现出更优的平衡性，适用于大规模数据处理。最终输出的是空间分辨率为0.5米、包含8个波段的多光谱图像，在完全保留原始光谱信息的同时，融合了精细的空间特征，为基于深度学习的语义分割提供了高质量的数据库。

实验在高性能工作站上进行，配置包括Intel Core i9-14900K处理器、NVIDIA GeForce RTX 4090显卡、128GB DDR5内存等。模型超参数经过配置以确保所有实验的公平比较，所有模型均使用随机梯度下降（SGD）优化器。损失函数的一个关键区别在于：全监督方法使用标准交叉熵损失，而弱监督OME则使用其加权变体以减轻伪标签中的噪声。模型训练50个轮次，并选择在验证集上mIoU最高的检查点进行最终评估。

为科学评估深度学习模型在博斯腾湖地区地物分类的性能和适用性，并分析融合技术对湿地分类精度的影响，本研究采用了准确率（Accuracy）、平均交并比（mIoU）、平均准确率（mAcc）、召回率（Recall）、精确率（Precision）和F1分数（F1-score）等评估指标。这些指标从不同角度全面衡量了模型的分类效果。

结果与分析

整体精度对比分析

基于各项精度指标的评估显示，五种模型在博斯腾湖湿地这一复杂分类任务中表现出显著的性能差异，凸显了不同网络架构在语义分割能力上的差别。基于Transformer架构的SegFormer模型在所有核心指标上均取得了最佳性能：准确率98.75%，mIoU 95.33%，mAcc 97.36%，精确率97.50%，召回率97.31%，F1-score 97.47%。这表明该模型对所有特征类别均表现出强大的提取能力和一致性，证明了其强大的全局上下文建模能力对复杂湿地环境的出色适应性。

作为基于卷积神经网络的代表性模型，DeepLabV3+和U-Net取得了次优的结果。虽然它们明显逊色于SegFormer，但其指标仍显著高于传统基线模型FCN。其中，DeepLabV3+的mIoU（86.58%）略高于U-Net（85.65%），在精确率和召回率上也显示出边际优势。这证明了其多尺度空洞卷积模块在上下文信息融合方面具有一致且适度的优势。相比之下，作为基准全监督方法的FCN得分最低，反映了其在处理复杂光谱-空间结构和多类精细分类任务方面的局限性。

弱监督模型OME在有限样本条件下展现出显著优势。结果表明，OME在准确率（98.76%）和召回率（96.20%）方面与最优的全监督模型SegFormer表现相当，表明其在目标发现能力和区域覆盖完整性方面表现出色，漏检率极低。尽管其mIoU（87.94%）和精确率（91.72%）仍略低于顶尖的全监督模型，但其整体分类性能显著优于传统的全监督基线FCN，并与广泛使用的U-Net和DeepLabV3+相媲美。这一发现凸显了弱监督学习方法在高精度遥感地物分类中的重要研究价值和可观应用潜力。

对评估指标的对比发现，平均交并比（mIoU）是各模型 consistently 最低的指标，而准确率保持最高。这种差异源于它们不同的计算特性。准确率衡量整体像素分类的正确率，对大面积主导类别高度敏感，而对边界误差和小类别误分类相对不敏感。mIoU则同时考虑分割结果的准确性和完整性，对类别边界误分类和少数类别混淆具有更高的敏感性。全监督和弱监督模型的mIoU值均显著低于同模型的准确率、精确率和召回率。特别是对于弱监督模型OME，其mIoU（87.94%）与准确率（98.76%）之间存在超过10个百分点的差距，远大于全监督模型中相应的差距。即使在性能最优的SegFormer模型中，尽管其准确率达到98.75%，但对各类IoU值的深入分析显示，某些困难类别（如光谱特征相似的作物）的IoU值仍然相对较低，从而降低了整体mIoU水平。这一特性使得mIoU成为评估分割质量的严格指标，它能更准确地反映模型在复杂环境中的实际能力。准确率的高值主要源于模型对大面积均质区域的准确分类，而相对较低的mIoU则揭示了模型在细节化和边界精确勾勒方面的不足。

训练过程的损失曲线进一步为上述性能差异提供了证据。经过50轮训练后，各模型的损失函数均趋于收敛，但其优化过程和收敛轨迹存在显著差异。模型的损失曲线从高到低可视化为：FCN、U-Net、DeepLabV3+，而SegFormer和OME收敛于最低位置。这一排序与模型在测试集上的性能高度一致。

具体而言，在全监督模型中，SegFormer和DeepLabV3+表现出相对更好的优化特性。SegFormer和DeepLabV3+的损失函数下降最快，最终稳定在较低值水平，表明其优化过程更高效、稳定，且特征学习能力更强。相比之下，FCN的损失曲线始终处于较高值范围，训练过程中波动明显，收敛缓慢，且最终收敛值最高，与其较差的泛化性能一致。U-Net的整体损失水平虽优于FCN，但仍显著高于DeepLabV3+和SegFormer，显示出一定的优化不足。弱监督模型OME则表现出独特的收敛行为。其损失值在整个训练过程中保持在非常低的范围，起始值显著低于所有全监督模型，在早期阶段快速收敛后几乎保持平坦，表明其独特的学习动态。这一现象源于弱监督与全监督学习目标函数的内在差异，以及OME高效利用图像级信号快速逼近其优化目标的能力。尽管OME的损失值极低，但其在mIoU等细粒度指标上的性能差距表明，弱监督学习在像素级定位任务方面仍有优化空间。

整体分类效果对比分析

基于整体分类结果，系统比较了各模型在博斯腾湖地区大范围空间上的宏观表现。总体而言，所有模型均能实现19种主要地物类别的基本区分，但在语义一致性、边界精度和噪声控制方面存在显著差异。

具体而言，FCN模型的分类结果存在明显的“椒盐噪声”和特征破碎现象。同时出现大规模系统性误分类，例如将连续的稀疏植被误判为“甜叶菊”或“草地”，将大片作物区误判为“甘草”或“草地”。提取的地物边界模糊，仅光谱特征鲜明的开阔水体等地物分类效果较好，其结果仅适合作为初步参考。U-Net模型整体性能有所改善，成功区分了大多数地物边界。然而，区域内仍存在来自多个特征类别的显著噪声。局部误分类，如将稀疏植被与“葡萄”和“居民点”混淆，加之在居民点等细粒度景观中边界保持不足，表明其在复杂场景内语义一致性建模方面存在局限。

相比之下，SegFormer和DeepLabV3+模型显示出最优的宏观分类性能，图斑完整连续、边界清晰，与其他模型相比，误分类和噪声显著减少，反映了其对复杂湿地景观的强大空间上下文建模能力和精确语义解析能力。弱监督OME模型生成了视觉上连贯的图谱，对居民点、道路等特征的边界勾勒清晰。然而，详细比较揭示了一种独特的行为模式：OME倾向于将大范围的农业区过度分类为单一的主导作物类别，而全监督模型（SegFormer、DeepLabV3+）则正确地划分出更具异质性的作物镶嵌体。这种差异凸显了图像级监督范式的一个关键特征（也是当前局限）——在没有像素级指导的情况下，OME可能学习到对主导类别的过度简化的空间先验，偏向于大面积的同质斑块，而非精细的类间区分。尽管在大面积均匀区域标记上存在这种偏差，但OME保持高整体语义一致性并达到有竞争力的定量指标的能力仍然值得注意，证明了其作为数据高效解决方案的潜力，特别是在无法获得详尽像素标注的情况下。

典型地物分类细节性能分析

本研究通过考察局部区域的分类细节，对典型地物进行了详细的性能分析。分析聚焦三大类别：自然与不透水面、湿地植被与水文系统、以及农业作物。通过系统比较各模型在边界完整性、类别一致性和误分类方面的表现，揭示了不同模型对光谱特征相似地物的判别能力，及其在复杂湿地-农业混合景观中语义理解方面的表现。这种从全局到局部的多层次比较，为全面评估模型在真实地理环境中的适用性提供了坚实基础。

各类别性能对比分析

为超越汇总指标并识别每个模型的具体优缺点，我们使用F1分数进行了逐类性能分析。分析揭示，在19种遥感土地覆盖类别中，仅约10.5%存在显著的混淆风险。草地类别问题最为突出。虽然在全监督模型中已观察到过度预测的趋势，但此问题在弱监督OME模型中升级为系统性故障，其F1分数仅为37.38%，与最优的全监督SegFormer相比存在51.49%的巨大赤字。这表明模型表现出强烈的倾向，将大量光谱模糊区域误判为草地。此现象凸显了弱监督方法在处理特征模糊类别时固有的根本局限性。当目标类别与其他特征（如道路或小麦）具有高度光谱和纹理相似性时，仅依赖图像级标签不足以指导模型学习像素级的判别特征。

居民点表现出不同的模式。包括U-Net和DeepLabV3+在内的全监督模型倾向于仅捕获典型的居民点特征而忽略形态变异，经常将其与光谱相似的类别（如道路）混淆。值得注意的是，OME在居民点上表现良好，F1分数达到92.05%，在所有模型中排名第三。这表明对于结构复杂的类别，弱监督方法可能因其整体语义理解能力而具有优势。

OME的性能表现出明显的二分性；它在具有独特光谱-空间特征的类别上表现出色，但在易混淆的类别上表现不佳。这凸显了弱监督学习对类间相似性的敏感性及其相对于全监督方法较低的稳定性。此外，SegFormer在多个具有挑战性的类别中领先，表明其在建模细粒度区分方面具有卓越能力。相比之下，辣椒类别在所有模型中表现出高度一致性，证明独特的光谱特征可以显著降低分类难度。

总之，本研究为弱监督方法在遥感土地覆盖分类中的适用性划定了清晰的界限。虽然这些方法可以大幅降低标注成本并对大多数类别提供强劲性能，但它们可能在特征模糊、易混淆的类别上完全失败。因此，未来研究应发展混合监督策略。这些策略将对大多数光谱 distinct 的类别采用弱监督，而对于少数关键但具有挑战性的类别，则将像素级标注与有针对性的模型微调相结合，旨在实现分类精度与标注效率之间的最佳平衡。

自然与不透水面分类细节分析

在自然表面与不透水面（包括

引言