多模态遥感数据融合与弱监督学习在博斯腾湖湿地-农田精细分类中的应用与性能评估

《Land》：Fine-Grained Classification of Lakeshore Wetland–Cropland Mosaics via Multimodal RS Data Fusion and Weakly Supervised Learning: A Case Study of Bosten Lake, China

【字体：大中小】 时间：2026年01月04日 来源：Land 3.2

编辑推荐：

　　本文系统评估了多模态遥感数据融合（Gram–Schmidt方法）与弱监督学习（WSL）在干旱区湿地-农田复合景观精细分类中的协同效应。研究表明，SegFormer（基于Transformer）在完全监督下取得最优性能（准确率98.75%，mIoU 95.33%），而弱监督模型OME仅依赖图像级标签即可达到媲美完全监督的精度（准确率98.76%），显著降低标注成本。多模态融合显著提升模型边界识别能力，尤以U-Net的mIoU提升63.39%最为突出。本研究为干旱湿地高精度、低成本的动态监测提供了有效范式。

研究背景与意义

湿地作为独特的生态系统，在维持生物多样性、调节水文循环和支撑区域生态安全方面具有不可替代的作用。以中国干旱区最大的内陆淡水湿地——新疆博斯腾湖为例，其湖滨带受气候变化和人类活动影响，已演变为典型的湿地-农田交错带，呈现复杂的景观镶嵌结构。这种结构虽允许农业排水部分补给湿地，但也加剧了水资源竞争和非点源污染风险，直接威胁湿地生态完整性。因此，精确刻画湿地与农田的时空分布，成为实施生态保护红线划定、生物栖息地评估和农业水资源优化管理等关键举措的前提。

传统遥感技术虽具备大范围、周期性观测的优势，但湿地生态系统普遍存在光谱混合现象突出、地物边界模糊、季相变化显著等特点，加之遥感影像固有的噪声干扰，给传统分类方法在特征表达和模型鲁棒性方面带来巨大挑战。深度学习（DL）技术，特别是语义分割模型如全卷积网络（FCN）、U-Net等，能够自动提取多层次空间-语义特征，显著提升了复杂场景下的分类精度，已成为该领域的主流方法。然而，这类完全监督的深度学习方法极度依赖大量高质量标注样本，湿地地物类别的复杂性和异质性，加之极高的人工标注成本，严重限制了其在湿地分类中的实际应用。发展标注效率高、适应性强的智能分类方法，已成为湿地遥感领域亟待解决的关键问题。

研究区域与数据

本研究聚焦于新疆博斯腾湖北部湿地生态系统。博斯腾湖位于巴音郭楞蒙古自治州中部，是塔里木盆地重要的生态屏障。研究区地势平坦，水系发达，具有典型的内陆湿地生态特征。本研究重点分析了开放水体、芦苇群落、退化芦苇、泥滩、农田、裸地等典型湿地景观之间的时空异质性和光谱混合现象。

为兼顾高空间分辨率和多光谱特性，本研究选取Pleiades和PlanetScope-3两种遥感数据源构建多模态数据集。Pleiades数据提供0.5米全色和2米多光谱（B/G/R/NIR）分辨率，能精细刻画湿地植被群落结构及水陆过渡带的空间异质性。PlanetScope-3数据提供8个光谱波段，空间分辨率为3米，本研究使用其L3B级产品，该产品经过传感器辐射校正、基于Sentinel-2的几何配准与正射校正，并利用6S辐射传输模型和MODIS近实时大气参数进行了大气校正，有效消除了气溶胶和水汽影响，为后续分类提供了可靠的光谱基准。

数据预处理遵循标准化流程。所有影像数据统一投影至WGS_1984_UTM_Zone_45N坐标系。通过野外实地调查，结合GPS定位与专家知识视觉解译，共采集697个样本点，涵盖道路、居民点、水体、芦苇、退化芦苇、泥滩、裸地、草地、稀疏植被、灌木林等自然覆盖类型，以及葡萄、茴香、甜菜、小麦、玉米、甜叶菊、辣椒、番茄、甘草等主要作物类型。随后，利用滑动窗口法将大幅影像裁剪为30×30像素的图像块，重叠区域设置为3像素，以进行数据增强并缓解边缘预测精度下降问题。针对“草地”类别样本不足的问题，采用90°、180°、270°旋转变换进行针对性数据增强。最终构建了包含9296对图像-标签样本的大规模语义分割数据集，并按8:1:1比例划分为训练集（7414样本）、验证集（941样本）和测试集（941样本）。

研究方法

本研究提出了一种融合多源遥感数据与弱监督学习（WSL）的技术框架，旨在平衡分类精度与标注成本。技术流程核心包括多模态数据融合、样本库构建以及分类模型性能比较。

在数据层面，采用Gram–Schmidt（GS）融合方法，将Pleiades高分辨率全色影像（0.5米）与PlanetScope-3多光谱影像（3米，8波段）进行融合，生成兼具高空间分辨率与丰富光谱信息的融合产品，为后续精细分类提供数据基础。

在模型层面，系统比较了完全监督学习（FCN, U-Net, DeepLabV3+, SegFormer）与弱监督学习（以“One Model Is Enough, OME”为代表）两种范式在特定湿地场景下的性能差异。

完全监督方法：

•
FCN：作为语义分割的开创性工作，采用编码器-解码器结构，通过转置卷积上采样，并引入跳跃连接融合深浅层特征，改善了边界精度。
•
U-Net：基于FCN的对称U型编码器-解码器结构，其核心创新在于密集的跳跃连接，能有效保留空间细节，适用于标注数据有限的场景。
•
DeepLabV3+：在DeepLabV3基础上引入编码器-解码器结构，采用Atrous Spatial Pyramid Pooling（ASPP）模块通过空洞卷积捕获多尺度上下文信息，解码器融合高低层特征以平衡语义丰富度与边界细节。
•
SegFormer：采用纯Transformer编码器，通过自注意力（Self-Attention, SA）机制全局建模上下文关系，配备轻量级MLP解码器进行多尺度特征融合，摒弃了卷积的归纳偏置，增强了长程依赖捕获能力。

弱监督方法：

•
OME：一种针对遥感图像多类地物覆盖分类的图像级弱监督语义分割框架。其通过整合样本过滤和数据集共现评估机制构建高质量图像级训练样本集，利用多类类别激活图（Multi-class CAM）生成像素级加权掩码，显著降低伪标签中的噪声。关键创新在于其不确定性驱动的加权损失函数，通过像素级权重掩码W（W = 1 - U，U为不确定性掩码）动态调整每个像素对损失的贡献，引导模型聚焦于高置信度标注区域，从而增强分割性能。

实验环境基于高性能工作站，模型超参数统一配置以确保公平比较。采用随机梯度下降（SGD）优化器，完全监督方法使用标准交叉熵损失，弱监督OME使用加权交叉熵损失。模型训练50个周期，选择在验证集上mIoU最高的检查点进行最终评估。评估指标包括总体精度（Accuracy）、平均交并比（mIoU）、平均精度（mAcc）、召回率（Recall）、精确率（Precision）和F1分数（F1-score）。

研究结果

整体精度对比分析

评估结果显示，五种模型在博斯腾湖湿地复杂分类任务中性能差异显著。基于Transformer架构的SegFormer模型在所有核心指标上均表现最优：准确率98.75%，mIoU 95.33%，mAcc 97.36%，精确率97.50%，召回率97.31%，F1分数97.47%。这表明该模型对所有特征类别均表现出强大的提取能力和一致性，其强大的全局上下文建模能力出色地适应了复杂湿地环境。DeepLabV3+和U-Net作为基于卷积神经网络的代表模型，取得了次优结果，其指标显著高于传统基线模型FCN。其中，DeepLabV3+的mIoU（86.58%）略高于U-Net（85.65%），在精确率和召回率上也略有优势，表明其多尺度空洞卷积模块在上下文信息融合方面具有稳定优势。FCN作为基准完全监督方法，得分最低，反映了其在处理复杂光谱-空间结构和多类精细分类任务方面的局限性。

弱监督模型OME在有限标注条件下展现出显著优势。结果显示，OME在准确率（98.76%）和召回率（96.20%）上可与最优的完全监督模型SegFormer相媲美，表明其具有优异的目标发现能力和区域覆盖完整性，漏检率极低。尽管其mIoU（87.94%）和精确率（91.72%）略低于顶级完全监督模型，但其整体分类性能显著优于传统完全监督基线FCN，并与广泛使用的U-Net和DeepLabV3+相当。这一发现凸显了弱监督学习方法在高精度遥感地物分类中的重要研究价值和可观应用潜力。

损失曲线分析表明，经过50轮训练，各模型损失函数均趋于收敛，但优化过程和收敛轨迹存在明显差异。SegFormer和DeepLabV3+的损失函数下降最快且最终稳定在较低值，表明其优化过程更高效稳定。FCN的损失曲线始终处于较高值范围，波动大，收敛慢。OME的损失值在整个训练过程中保持在极低范围，并快速收敛，显示出独特的学习动态。

整体分类效果对比

宏观分类结果表明，所有模型均能实现19种主要地物类别的基本区分，但在语义一致性、边界精度和噪声控制方面差异显著。FCN的分类结果存在明显的“椒盐噪声”和地物碎片化，且出现系统性误分。U-Net模型整体性能有所改善，能成功区分大多数地物边界，但区域内仍存在多类别噪声。相比之下，SegFormer和DeepLabV3+模型的宏观分类效果最优，图斑完整连续、边界清晰，误分和噪声显著减少，反映了其强大的空间上下文建模能力和对复杂湿地景观的精确语义解析能力。

弱监督OME模型生成了视觉连贯的分类图，对居民点、道路等地物边界保持良好。然而，详细比较发现，OME倾向于将大范围农业区过度分类为单一主导作物类别，而完全监督模型则能正确勾勒出更异质化的作物镶嵌格局。这凸显了图像级监督范式的关键特征及其当前局限性：缺乏像素级引导，OME可能学习到对主导类别的过度简化的空间先验。

典型地物分类细节性能分析

通过对局部区域分类细节的剖析，深入评估了各模型在自然与不透水面、湿地植被与水文系统、农作物三大类地物上的分类能力。

•
自然与不透水面：在线状地物（道路）识别上，U-Net和OME模型对线性特征的提取效果最佳，道路连续性和边界完整性保持较好。在裸地识别上，FCN出现严重混淆，OME仍与稀疏植被存在混淆，而U-Net、DeepLabV3+和SegFormer表现更稳定。在居民点细节上，OME模型能清晰勾勒建筑物并识别细小缝隙，细节精度优势明显。在居民点与道路交织区域，OME能准确区分两类细微地物并保持清晰边界。
•
湿地植被与水文系统：所有模型对开阔水体的提取精度均较高，但在区分芦苇、退化芦苇、泥滩等光谱相似地物方面表现出显著差异。U-Net在湿地植被的精细区分上表现最佳，能清晰辨别细微光谱差异并保持高语义一致性。OME在此类任务上表现较差，大量退化芦苇被误分为稀疏植被，漏检严重，凸显了弱监督方法在缺乏足够标注数据时识别细微光谱特征的关键挑战。OME在泥滩与水体区分上精度最高，能准确识别过渡边界。DeepLabV3+和OME在水体边界提取上表现最优。
•
各类农作物：作物分类是本研究中最具挑战性的任务，主要由于小麦、玉米、葡萄、茴香、甜叶菊、辣椒、番茄、甘草、甜菜等作物间光谱相似性高。DeepLabV3+在作物分类上整体性能最佳，尤其在易混淆作物（如玉米、辣椒、甜叶菊、甜菜）的分类上，结果边界清晰、噪声极低。弱监督模型OME表现令人惊喜，不仅在小麦和番茄识别上精度最高，而且在田块边界保持上表现出色，证明了弱监督方法在作物结构提取任务中的潜力。SegFormer模型虽整体精度高，但仍存在局部光谱混淆。FCN和U-Net面临较大挑战，普遍存在系统性误分问题。

消融实验分析

消融实验系统验证了多模态数据融合的有效性和必要性，以及完全监督与弱监督范式下模型架构的性能差异。结果表明，无论模型架构如何，在融合的Pleiades和PlanetScope-3数据上训练的模型，其性能均显著优于单一数据源。多模态数据融合通过互补信息增强模型的特征表达能力，显著提高了分割精度。模型架构的选择对分割性能有显著影响。基于Transformer架构的SegFormer在融合数据上取得了97.42%的F1分数，显著优于基线模型。在融合数据上，弱监督学习的OME模型仅使用少量标注即达到了92.84%的F1分数，不仅显著优于FCN和U-Net等传统完全监督方法，甚至可与SegFormer等强大完全监督模型的性能相媲美。分析还发现，模型能力与数据丰富度之间存在显著耦合关系。性能较低的模型从多模态数据融合中获益更多，而强大的模型架构即使是在单一数据源上也能获得扎实的性能，并在融合数据上达到近乎完美的性能。

讨论

模型架构的演进

本研究结果清晰地描绘了一条模型性能随架构演进（FCN → U-Net/DeepLabV3+ → SegFormer）的提升路径。这种提升并非偶然，源于模型特征表示能力的质变，与遥感语义分割领域的整体发展趋势一致。FCN受限于其局部卷积操作和上采样的粗糙性。U-Net通过引入跳跃连接在一定程度上缓解了细节丢失问题。DeepLabV3+通过ASPP模块增强模型捕获多尺度特征的能力。本实验中最显著的性能飞跃来自基于Transformer架构的SegFormer，其近乎所有指标上的极高分数证明了自注意力机制在建模遥感图像全局上下文信息方面的显著优势。湿地生态系统中的地物分布具有强烈的空间相关性，SegFormer能够高效捕获整个图像中所有像素间的长程依赖，从而实现对复杂场景的深层语义理解，减少了基于CNN的模型因感受野有限而导致的局部误分。

弱监督学习的潜力

本研究的一个重要发现是弱监督OME模型表现出高度竞争力，在整体指标上匹配或接近顶级完全监督方法，并在识别某些特定土地覆盖类型方面表现出色。这一结果具有重要的现实意义，它证明了仅使用图像级标签即可有效驱动模型学习高判别性的特征表示，为在标注数据稀缺的遥感领域应用深度学习提供了极具潜力的解决方案。然而，OME也暴露了弱监督学习固有的局限性。其在精细湿地植被分类中表现欠佳的主要原因在于弱监督信号缺乏像素级定位指导，导致模型对细微光谱差异不敏感。这表明，当前的弱监督方法对于“图像分类”任务日趋成熟，但在实现“像素级定位”的高精度方面仍面临巨大挑战。未来研究应向更精细的弱监督范式迈进，直接解决生成高保真伪标签的核心挑战。

多模态数据融合的增益效应

消融实验强有力地证实了融合多模态遥感数据是提升湿地分类精度的核心，这一发现与遥感信息处理的普遍共识一致。Pleiades数据提供的高空间分辨率（0.5米）与PlanetScope-3数据提供的丰富光谱信息（8波段）完美互补。这种性能提升在所有模型上具有普适性，但对于基线性能较弱的模型（如U-Net）最为明显。这表明，对于那些因架构限制造成特征提取瓶颈的模型，更丰富、更多样的数据可以有效弥补。这一见解为资源有限的团队提供了实用策略：当无法获取或计算资源无法支撑最先进模型时，投资于多模态数据获取与融合，为提升现有模型性能提供了一条可行路径。

研究局限与展望

尽管本研究为复杂湿地分类提供了系统性的见解，但仍存在一些局限之处，指明了未来研究的方向。首先，必须承认本研究的地理特异性，其结论主要适用于博斯腾湖这类干旱区湿地-农田镶嵌景观，向其他类型湿地生态系统的直接推广需进一步验证。其次，模型对比未涵盖Swin Transformer、Mask2Former等新兴架构。第三，本研究聚焦于单时相分析，未探索多时相数据在区分物候特征方面的巨大潜力。此外，虽然OME在本场景中表现良好，但其泛化性仍需在不同地理景观和传感器数据上得到验证。最后，Transformer模型的高计算成本阻碍了其部署，未来工作需追求高效架构，以实现实时、边缘端的应用。

结论

本研究以博斯腾湖湿地为案例，证实了融合多模态数据与弱监督学习为干旱区湿地-农田精细分类提供了一种有效途径。关键发现包括：基于Transformer的SegFormer取得了最高精度（98.75%）和mIoU（95.33%）；弱监督OME模型仅使用图像级标签即可匹配领先的精度（98.76%）；多模态融合普遍提升了模型性能，其中U-Net的mIoU提升高达63.39%最为突出。这些结果和经过验证的框架主要适用于具有类似特征的干旱区湿地镶嵌景观，为此类情境下的高精度、低成本监测提供了实用策略。未来的工作对于严格评估该框架向其他生态系统类型的可转移性以及整合时序分析进行动态评估至关重要。

研究背景与意义

研究区域与数据

研究方法

研究结果

讨论

结论

热点排行