基于Sentinel-2时间序列影像的协同边缘增强与时序差分感知网络的农田精准分割模型STFE及其在农业遥感中的应用
【字体:
大
中
小
】
时间:2025年09月30日
来源:International Journal of Agricultural Sustainability 2.9
编辑推荐:
本文提出了一种新型时空特征增强网络STFE,通过边缘引导空间注意力(EGSA)模块增强边界表征,结合渐进特征增强(PFE)策略融合多尺度特征,并利用基于ConvLSTM的差分感知注意力(DAA)模块动态聚合时序信息,有效解决了农田语义分割中因作物轮作、空间异质性和云影遮挡导致的边界模糊和时空不一致性问题。在PASTIS、ZueriCrop和DNETHOR三个基准数据集上的实验表明,STFE相比最优基线模型平均交并比(mIoU)提升3.2%,为复杂农业场景下的耕地动态监测提供了可靠且可扩展的解决方案。
农田语义分割对于从卫星遥感影像中提取作物分布至关重要。然而,作物轮作导致的动态时序模式和农田空间异质性阻碍了高精度分割,引发边界模糊、类内变异以及云影遮挡等问题。本研究提出STFE(Spatiotemporal Feature-Enhanced Network),一种面向遥感时间序列影像的农田分割时空特征增强网络。STFE通过三个关键设计整合时空特征:边缘引导空间注意力(EGSA)模块增强不规则田块边界表征;渐进特征增强(PFE)策略逐步融合多尺度特征以强化空间表示;差分感知注意力(DAA)模块基于ConvLSTM动态聚合时序信息,实现对作物轮作和季节变化的鲁棒建模。在三个基准数据集上的实验验证了STFE的有效性,其平均交并比(mIoU)较最佳基线提升3.2%。通过有效利用时空线索,STFE为农田动态监测提供了可靠且可扩展的解决方案,支持可持续农业和科学决策。
作为农业生产的基础资源,农田在粮食安全、生态平衡和经济发展中扮演关键角色。实现高精度农田语义分割对提高土地利用效率和促进农业生态系统研究具有重要意义。近年来,遥感数据因其覆盖范围广、空间分辨率高和实时性强等特点,被广泛应用于农田提取和作物分类。然而,作物外观特征在整个生长阶段持续变化,加之耕作和收割等农业活动影响农田形态特征,导致单时相影像的农田提取性能受限。时间序列遥感影像能融合季节变化和作物轮作信息,更适用于精准作物识别。多时序分析对复杂区域的精确农田分类尤为重要。
传统方法包括基于阈值的算法、聚类算法、随机森林(RF)和支持向量机(SVM)等依赖手工特征提取的方法,但这些方法在特征交互和泛化能力方面存在局限。相比之下,深度学习(DL)方法在农田分割中广泛应用,主要分为卷积神经网络(CNN)和循环神经网络(RNN)两类。CNN通过自动特征学习、层次表征和端到端训练捕获像素或田块级空间关系,成为语义分割的基石。全卷积网络(FCN)、U-Net、SegNet和DeepLab等CNN架构被开发用于处理各种分割任务,但这些架构主要针对单时相影像,限制了其在多时序农田分割场景中对时空特征建模的能力。
RNN因其递归连接结构和参数共享机制天然擅长分析序列数据,适用于时序建模。然而,传统RNN处理长程依赖时存在梯度消失问题。长短期记忆网络(LSTM)通过门控单元缓解梯度消失并更好地捕获长程依赖。卷积LSTM(ConvLSTM)结合CNN的空间特征提取优势和LSTM的时序建模能力,在时间序列影像分割任务中展现出巨大潜力。
尽管基于深度学习的农田研究取得显著进展,但仍存在一些挑战导致提取不准确:(1)缺乏时空一致性。现有方法主要从特定空间或时间尺度提取作物特征,但难以建模时序变化,导致非生长或早期生长阶段的农田被误分为非农田,精度下降。(2)当前基于CNN的方法(如U-Net和SegNet)因卷积核感受野有限,难以捕获详细空间信息,导致边缘信息模糊,对轮廓和边界缺乏敏感性。在复杂场景(如都市农业或农林复合区)中问题更突出,提取的农田形状和尺寸可能与现实偏差。(3)对环境干扰的适应性低。时间序列遥感影像常受云层等因素影响,导致图像质量下降。基于RNN的方法(如LSTM)或Transformer模型虽擅长建模全局依赖,但对局部特征损失缺乏敏感性,尤其在云遮挡诱导的短期异常变化场景中,语义分割精度受影响。
为解决上述挑战,本研究引入STFE,一种用于时间序列影像农田精准语义分割的新型时空特征增强网络。STFE采用级联网络结构,在实现边缘细节特征提取的同时捕获时间尺度上的农田演化特征。提出的EGSA模块自适应融合多尺度边缘特征与深层语义特征,增强特征边界和细节捕获,同时缓解云遮挡导致的精度下降问题。引入的DAA模块通过混合注意力融合建立时序上下文依赖,用于检测不同时间步的局部时序信息并捕获作物生长阶段的详细变化,提高时间序列影像的整体分割精度。通过分析多时序影像数据,验证了STFE的时序特征提取部分能更全面考虑特征的时序连续性和变化特性,减少云遮挡造成的损失,显著提高模型精度。最终,在多类影像序列数据集上的综合实验表明,所提模型在复杂场景下的分割性能和对环境干扰的鲁棒性方面表现优异。
早期遥感影像语义分割方法主要依赖手工特征,需专业知识选择和设计特征以准确分类不同作物类型。随着机器学习(ML)技术进步,手工特征提取方法因处理复杂农业场景的局限性逐渐被取代。传统ML方法包括决策树(DT)、支持向量机(SVM)、朴素贝叶斯和随机森林(RF)等。例如,SVM用于提取农田光谱和纹理特征,随后通过RF方法进行特征选择;RF、DT和SVM分别应用于分割对象进行作物分类,以呈现不同方案下的精度比较和理论分析。对于具时序特征的影像,传统方法通常采用基于统计的模型分析数据动态变化趋势,如时序滤波器、马尔可夫模型和条件随机场(CRF),通过建模数据概率分布描述不同时序模式间的关系。然而,传统ML方法需手动特征提取,导致语义分割结果有限,尤其在处理复杂农业场景、变异和多样性时泛化能力差。
近期,随着DL算法的爆炸式发展,大量研究涌现,如卷积神经网络(CNN),探索使用深度学习方法进行农田遥感影像语义分割的可行性和有效性。例如,基于U-Net和DenseNet的深度学习模型高效提取浅层特征和深层上下文信息,改善卫星影像语义分割中的单尺度问题;应用2D CNN和3D CNN混合结构从高分辨率卫星影像中提取光谱和空间信息以指导精准土地覆盖分类;提出新颖架构CCTNet,整合CNN的局部细节特征和Transformer的全局上下文特征,以解决作物遥感影像分割中的全局与局部信息不平衡等问题;提出语义分割的泛化采样学习方法,有效捕获不同土地类别概念。
由于遥感技术改进及云计算和大数据支持,获取多时序遥感影像变得现实和便捷。引入时间维度到农田提取中使我们能捕获随时间变化的土地利用动态,这在农业领域尤为重要。研究表明,CNN在作物分类中的性能优越性已得到证实。基于CNN,大量努力致力于处理多时序影像序列。具体地,CNN通过卷积滤波器提取全局上下文信息。例如,基于一维卷积(Conv1D)层构建深度网络以捕获增强植被指数(EVI)的时序变化,验证了采用Conv1D在时间序列表征中的可行性;提出基于3D CNN的新方法自动分类时序遥感影像中的作物,该方法在整体精度上优于2D CNN;应用2D CNN架构于多时序作物制图以克服卫星影像中云覆盖和光谱可分性问题的限制;设计基于3D CNN的深度学习方法,同时整合空间、时序和光谱信息以进行产量预测。
以提取长程时序依赖为特点,RNN已广泛用于多时序遥感影像中的作物分类。例如,构建端到端长短时记忆(LSTM)RNN模型以提高土地覆盖图精度并降低生成复杂性,为RNN架构遥感影像分类开辟有前景的道路;采用双向LSTM(Bi-LSTM)整合多时序卫星影像信息以捕获植被变化信息的长程依赖;引入新颖深度学习架构SSTNN以联合利用空间和时序信息,结合3D CNN和RNN将空间学习和时序特征提取模块纳入统一框架;提出基于时序特征的分割(TFBS)模型用于作物制图,该模型最初使用时序特征提取,随后采用U-Net推导这些时序特征的空间表示。
Transformer是一种基于注意力的架构,具有强大的全局关系表示能力。随着Transformer在自然语言处理(NLP)中的显著成功,研究人员开始探索其在捕获时间序列影像时序特征方面的潜力。例如,研究自注意力在多时序作物制图中的应用,定量结果证明了注意力机制在抑制无关分类信息方面的优越性;提出CNN-Transformer方法进行作物分类,其中Transformer架构用于从影像序列中提取时序模式,CNN架构作为解码器预测作物类别;设计多注意力网络(MANet)以融合不同层次的语义信息,结合局部特征图和全局依赖以提高多时序遥感影像分割精度和效率;提出多尺度上下文线性自注意力机制网络模型MSCSANet,建模输入的全局语义相关性以解决特征损失问题。对于时序影像语义分割,引入具有时序注意力编码器(U-TAE)的U-Net网络,结合多尺度空间卷积和时序自注意力机制以提取自适应时空特征;为保持时空一致性并实现精准影像序列预测,提出新颖有效的时空一致性网络(STCNet),利用基于多级运动记忆的预测器确保时序一致性,同时注意力赋能的时间变体帧鉴别器保证空间一致性。
这些研究 collectively 证明了基于CNN的架构和注意力机制在影像语义分割中的有效性。然而,由于环境干扰和对时空特征变化的有限敏感性,现有的时间序列遥感影像语义分割方法在具有多样作物类型的复杂场景中难以表现满意。
STFE的整体架构如图1所示。它以多时序遥感影像序列作为输入并产生二值语义分割结果。最初,在空间编码器部分,EAUnet利用来自SAM的全局上下文信息和EEM层次结构提炼的多尺度特征获得空间嵌入 Dlt (l=1,2,3,4)。引入PFE模块以增强特征融合并减少局部信息损失,替代EAUnet中的跳跃连接。随后,DAA模块从EAUnet结果中的空间特征图提取时序趋势和变化特征,通过ConvLSTM的长程时序建模和特征整合获得。以下小节介绍STFE中各模块的详细描述。
边缘注意力U-Net(EAUnet)的架构如图2所示,以U-Net作为特征提取的主干网络,输入影像组织为形状 C×H×W 的三维张量,其中 C 代表通道数, H×W 为影像尺寸,同一时间序列内的不同时间影像共享网络参数。首先,输入在编码器部分通过一系列卷积和池化操作进行下采样,重复四次以获得多尺度特征 F1, F2, F3, F4。然后特征图在解码器中进行转置卷积和逐层连接上采样,结合浅层细节特征和深层语义特征以获得 D1, D2, D3, D4。考虑到U-Net在感知细微结构信息方面的局限性,我们对其进行了两处修改:(i)在编码器的每一层插入边缘特征引导的空间注意力模块以进行显著特征提取,从而增强对影像结构和细节的感知。编码器的关键是多尺度空间特征学习以及自适应有效的聚合。我们提出了一种异构空间注意力和多尺度特征融合策略(EGSA),如图4所示。(ii)用渐进特征融合替换编码器和解码器层之间的跳跃连接,以避免信息损失和定位模糊。我们专注于设计一种新颖的多尺度特征解码模块,通过使用解码器中的渐进特征增强(PFE)模块逐步锐化特征图并逐步重新学习特征。在以下小节中,我们详细解释EAUnet。
为了以可学习和自适应的方式提取多尺度空间特征,我们提出了如图3所示的EGSA模块。它包含两个分支:空间注意力模块(SAM)和边缘增强模块(EEM)。SAM分支通过跨通道维度的平均池化和最大池化操作提取全局空间注意力,然后通过激活函数获得空间注意力权重图;每个像素的注意力值反映相对重要程度。EEM分支是致力于使用空洞空间金字塔池化(ASPP)结构补充边缘信息的辅助通路。然后,注意力权重图与不同膨胀率的特征图相乘,以学习更好的多尺度特征表示。最后,我们连接所有分支的特征图以获得多尺度特征的融合。
在我们的EAUnet架构中,随着网络深度增加,特征图的分辨率显著降低,这限制了有意义边缘特征的获取。为了加速网络收敛并生成更具代表性的特征,我们采用分层策略处理主干特征。对于编码器的前两层,物体轮廓突出,我们使用结合SAM和EEM的EGSA模块获取空间特征。相反,对于更深层,输出特征图的空间分辨率因多层下采样而显著降低,导致结构信息丢失;通过多尺度感受野获取精确的农田边缘特征变得困难。因此,我们仅对这些层采用SAM策略。这种定制方法优化了每层的特征提取。
给定EANet中前两层的输入: flt ∈ Rcl×hl×wl, (l=1,2) ,我们利用EGSA模块获取空间特征,该模块结合了从SAM获得的空间特征和SAM的多尺度信息。至于最后两层的输入张量 flt ∈ Rcl×hl×wl, (l=3,4) ,由于图像分辨率较低可能导致边缘特征细节丢失,仅使用SAM来优化特征提取。具体地,SAM层通过最大池化和平均池化操作聚合通道信息,分别获得空间注意力特征图: fl,maxt ∈ R1×hl×wl, fl,avgt ∈ R1×hl×wl 。然后经过通道拼接、卷积和sigmoid激活函数,我们得到空间注意力权重 Wl,sat :
Wl,sat = σsoftmax(Conv1×1(MLP( fl,maxt) ⊕ MLP( fl,avgt)))
其中 ⊕ 代表通道拼接, σ 表示softmax激活函数, MLP() 是多层感知层以挖掘池化特征图中的相互依赖关系, Conv1×1 是核大小为 1×1 的卷积操作。之后,SAM的输出可通过下式计算:
然后,我们通过 3×3 卷积进行特征增强和sigmoid激活函数获得特征注意力图,可表述为:
Fl,SAMt = σsigmoid(Conv3×3( flt))
相应地,我们将EEM纳入EGSA,如图4所示,它使用由不同膨胀率的卷积核组成的金字塔结构P来细化边界信息,有效扩展感受野。数学上,该模块的输出表示如下:
fl,Pt = P( flt), (P ∈ {d=3, d=6, d=12}ASPP)
其中它包含一组带有通道拼接的卷积操作。对于卷积集,我们设置核大小为3,膨胀率和填充大小分别为[3,3]、[6,3]和[12,3]。这种方法能够独立获取具有不同感受野的特征图,增强对多尺度边缘细节的捕获。该模块的 distinct 分支还采用逐层堆叠方法,促进密集像素采样,使网络能够提取更全面的高层空间特征。
在获得多尺度空间特征后,我们将特征与注意力权重矩阵按元素相乘以细化空间表示。然后,所有 resulting 特征图被拼接在一起,随后与输入特征图相乘,可表示为:
Fl,EEMt = Concat( fl,Pt ? Fl,SAMt) ? Conv1×1( flt)
因此,EAUnet编码器部分不同分辨率层的输出可描述如下:
Flt = Fl,EEMt ⊕ Fl,SAMt, (l=1,2), Flt = Fl,SAMt, (l=3,4)
传统U-Net网络使用跳跃连接连接编码器和解码器之间的特征图以捕获不同层次的信息。然而,跳跃连接仅结合具有相同空间分辨率的特征,缺乏相邻特征层之间的交互,从而限制了网络提取多尺度特征的能力。因此,我们提出了一种渐进特征增强方法(PFE),其中每个层的特征尺度嵌入来自相邻特征层的信息以保持一致的特征提取。我们采用渐进细化方法动态适应不同特征尺度,从低到高水平逐步捕获相邻特征尺度,而不是同时融合所有尺度的特征。
PFE模块的细节如图4所示,PFE模块由三个分支组成:来自低层网络层的浅层特征 Fl?1t 、来自高层网络层的深层特征 Dl+1t 和当前特征 Flt 。浅层特征包含丰富的详细信息,可用于细化局部特征提取。相比之下,深层特征生成更多全局上下文信息,可指导当前网络层的全局特征学习。值得注意的是,对于解码器层,我们首先使用双线性插值上采样特征图 Dlt 至与 Dl+1t 相同的分辨率。类似地,对于低层特征,我们首先采用深度卷积下采样浅层特征图以调整分辨率尺度,然后使用 1×1 卷积层以实现相同通道数 Flt 。在调整输入高层和低层特征图后,我们对来自相邻层的调整后特征图与当前层的特征图进行元素乘法以增强多尺度特征。由于高层特征包含更多全局语义信息而低层特征保持更多详细信息,通过乘法操作,我们可以获得细节增强特征图 Fl?1,ent 和空间语义增强,分别如下:
Fl?1,ent = Conv1×1(DownConv( Fl?1t) ? Conv1×1( Flt)), (l=1,2,3)
Dl+1,ent = Dl+1t ? Conv1×1( Flt), (l=1,2,3)
其中 DownConv () 是执行下采样的卷积层。之后,我们将特征图相加以融合低层信息和高层上下文信息,然后通过残差连接,每层的最终渐进特征增强表示可获得如下:
Dlt = Concat(Conv3×3( Fl?1,ent ⊕ Dl+1,ent), Conv1×1( Dl+1t)), (l=1,2,3)
对于时间序列影像的语义分割,考虑单幅影像的全局结构信息和一系列影像间的时序变化至关重要,这可显著增强性能。农田影像常呈现复杂的空间结构,且农田影像时序序列有时受云层等瞬时因素影响。这些环境因素可能导致单幅影像模糊,对整个时间序列的特征提取产生负面影响。为解决此问题,我们设计了利用自注意力和交叉注意力机制的DAA模块,如图5所示。DAA模块的开发考虑了自注意力和交叉注意力的结合,其中自注意力建立特征图内不同补丁之间的依赖关系,关注每个时间步的特征变化,从而捕获局部上下文信息。同时,交叉注意力机制链接不同时间步的特征图,增强对时序特征变化和交互的敏感性,有效捕获相邻时间步之间的特征转换。通过整合时间序列中前后帧的信息,模型可以利用未遮挡帧补偿受云层影响的帧,从而提高整体分割稳定性和鲁棒性。因此,这种双注意力方法可增强模型的表示能力和性能,促进从时序序列数据中全面提取信息。
具体地,每个时间点的特征图 D4t ∈ Rc×h×w 首先被展平为2D序列,意味着影像序列的长度。然后通过线性变换分别投影到查询向量( Qt ∈ Rc×d )、键向量( Kt ∈ Rc×d )和值向量( Vt ∈ Rc×d )。每个特征图生成两个查询向量以计算不同时间点的交叉注意力:自查询向量和交叉查询向量 Qct 分别用于自注意力和交叉注意力。
时间 t 的自注意力值用 Qst 、 Kt 和 Vt 计算,通过缩放点积公式:
Attns,ijt( Qst, Kt, Vt) = ∑x,y∈Cs(ij) [ ( Kijt + pxy)T Qs,ijt ]softmax / √d Vijt
其中 Qijt = Wq Xijt , Kijt = Wk Xijt , Vijt = Wv Xijt , 且 Wq, Wk, Wv 是每个向量的参数, Cs(i,j) 表示以 (i,j)