基于深度学习的植被冠层高度测绘与极化SAR技术:在加蓬热带森林中应用极化融合U-Net模型
《Science of Remote Sensing》:Deep learning-based vegetation canopy height mapping with polarimetric SAR: Application of a Polarization Fusion U-Net in Gabon’s tropical forests
【字体:
大
中
小
】
时间:2025年11月17日
来源:Science of Remote Sensing 5.2
编辑推荐:
冠层高度估计方法及性能优化研究,基于L-和P-波段全极化SAR数据提出PF-Unet模型,通过极化融合层、注意力门、ELU激活和Huber损失改进传统U-Net,显著降低RMSE(4.35m/4.43m)并提升R2值(0.93/0.92),较基线模型误差减少6%-7%,有效缓解高冠层(>40m)低估问题,为NISAR/BIOMASS等卫星任务提供算法支持。
森林是生态系统中不可或缺的一部分,它们为碳储存和生物多样性保护提供了重要的服务。因此,为了准确评估森林结构,我们需要高效且可扩展的方法。主动遥感技术,尤其是合成孔径雷达(SAR),在估计森林结构方面具有巨大潜力,因为SAR能够穿透植被层并与森林的不同元素相互作用。特别是L波段和P波段的SAR信号能够穿透树冠层,这使其成为获取森林结构信息的合适工具。本研究提出了一种新的方法,利用全极化SAR后向散射数据来估计树冠高度,作为森林结构的重要变量。为了捕捉SAR数据与植被树冠高度之间复杂的非线性关系,我们设计了一个极化融合U-Net(PF-Unet)模型,该模型通过有效利用多极化通道(如HH、HV和VV)来增强树冠高度的估计能力。具体而言,该模型结合了物理特性,包括极化融合层、应用于解码器块中每一层的注意力门以及指数线性单元(ELU)激活函数和Huber损失函数。为了评估PF-Unet模型的潜力,我们分别使用了L波段和P波段的SAR数据,这些数据是从加蓬的热带森林中收集的。模型在复杂热带森林环境中进行了评估,并与传统的机器学习(ML)方法(如随机森林(RF)和Light Gradient Boosting Machine(LGBM))以及标准的U-Net模型进行了比较。PF-Unet在两种SAR数据集上均优于所有基准模型。PF-Unet模型在L波段和P波段的RMSE分别为4.35米(15.73%)和4.43米(15.95%),优于U-Net模型的5.02米(18.15%)和4.59米(16.53%)。这一结果表明,PF-Unet模型在树冠高度估计方面具有良好的潜力,这对未来的空间任务,如NISAR和BIOMASS尤为重要。
树冠高度是评估植被和森林结构的重要生物物理指标,可以作为地上生物量和碳储存的代理(Dubayah等,2020)。准确的树冠高度数据可以用于评估和监测地上生物量(Wedeux等,2020;Schlund等,2021),这对于评估全球碳平衡至关重要(Pan等,2011)。除了在碳监测中的作用,树冠高度也被认为是评估生物多样性的重要变量(Atkins等,2021;Skidmore等,2021)。然而,树冠高度的实地采集需要大量的人力和资金投入,这使得在大面积森林区域实施变得尤为困难,尤其是在需要重复测量以追踪变化时(Lu等,2016;Réjou-Méchain等,2019)。在这种背景下,遥感技术已被证明在绘制森林树冠高度方面具有潜力,从而在大规模应用中补充或替代传统方法(Réjou-Méchain等,2019;Skidmore等,2021)。
激光雷达(LiDAR)传感器在局部到区域尺度上被认为是有效估计植被树冠高度的工具(Coops等,2021)。通常,该传感器安装在空中平台上,以收集高密度的点云数据,用于生成森林结构的详细三维表示(Jucker等,2017;Marinelli等,2022)。尽管这些数据在细节层面上能够准确测量树冠高度,但由于空中采集的高成本,它们通常受到空间密度的限制,这可能影响树冠高度估计的精度和分辨率(Dubayah等,2020)。此外,研究发现,空间LiDAR可能低估树冠高度,这主要取决于信号穿透和地面检测算法(Lahssini等,2022;May等,2024)。
合成孔径雷达(SAR)也是广泛用于估计森林结构属性的遥感技术(Sandberg等,2011;Liu等,2021;Schlund和Davidson,2018;Quegan等,2019)。特别是在密集的热带森林中,光学传感器常因数据饱和和重云覆盖而受到阻碍(Lu等,2016)。植被树冠高度通常使用干涉SAR(InSAR)和极化SAR干涉测量(PolInSAR)技术进行估计(Hajnsek等,2009;Kugler等,2015;Baghdadi等,2015;Guliaev等,2021;Choi等,2023;Xie等,2024)。这是基于这样的事实:干涉相干性和不同极化的相位中心与植被内散射体的垂直结构有关。然而,使用这些技术进行树冠高度估计通常受到多种因素的限制,如干涉采集特性(如跨轨干涉)、信号穿透、数据处理复杂性、相干性损失和对环境特性的敏感性(Kugler等,2015;Schlund等,2023;Li等,2023;Xie等,2024)。
极化SAR(PolSAR)是另一种潜在技术,可以获取植被树冠高度,而无需依赖干涉数据(Pourshamsi等,2021;Garestier等,2009)。使用PolSAR数据,Garestier等(2009)通过P波段SAR数据估计了海洋松林的树冠高度,取得了R2值为0.93和均方根误差(RMSE)小于2米的成果。然而,L波段在估计超过6米的树冠高度时表现出饱和,同时指出了一些生物群落特异性限制和需要进一步研究的问题,尤其是在高生物量的热带森林中(Garestier等,2009)。Pourshamsi等(2021)通过结合L波段PolSAR特征和机器学习模型,估计了热带森林的树冠高度,取得了R2值从0.48到0.77和RMSE值从7.54米到16.29米的成果。然而,由于SAR数据的穿透能力,可能存在低估的问题(Pourshamsi等,2021)。此外,浅层机器学习模型在捕捉不同SAR波长与森林结构变量之间的复杂关系方面存在局限(Zhang等,2022b)。此外,这些传统机器学习模型需要手动设计的变量,例如极化指数和分解指标,以及辅助特征,如灰度共生矩阵(GLCM)描述符,以捕捉空间信息(Pereira-Pires等,2025)。
近年来,卷积神经网络(CNN)的发展为森林研究提供了新的机会(Li等,2023;Pascarella等,2023;Ge等,2022)。特别是,U-Net及其基于注意力机制的变体是用于树冠高度估计研究中最受欢迎的CNN架构。一种定制的U-Net架构被用于同时估计多个森林参数(即树冠高度、覆盖和密度),结合SAR和光学图像(Gazzea等,2023;Lahssini等,2024)。Ge等(2022)引入了一种压缩和激发(SE)块U-Net,使用多时相Sentinel-1 C波段SAR和Sentinel-2多光谱数据。SE块通过全局平均池化和通道间自注意力减少了压缩输入特征空间。然而,其对通道特征的重视可能会忽略对准确估计树冠高度至关重要的关键空间模式。此外,对于通常包含最多四个极化通道(HH、HV、VH和VV,其中H代表水平,V代表垂直)的PolSAR数据,SE块可能并不特别有意义,因为通常用于显著减少通道维度(Hu等,2018)。
尽管U-Net等CNN模型在树冠高度估计方面有潜力,但它们直接应用于SAR数据仍然有限(Wagner等,2024;Ge等,2023;Illarionova等,2022)。这种限制源于这些网络最初设计用于处理光学图像,而光学图像与SAR数据在特征和信息内容上存在根本差异。此外,对于L波段和P波段等长波长SAR数据,探索深度学习(DL)模型的潜力仍有很大差距(Ge等,2023)。大多数现有工作集中在使用Sentinel-1的C波段SAR数据,因为其连续、全球获取和开放访问的特性(Ge等,2022;Gazzea等,2023)。然而,高频率SAR系统,如X波段和C波段,对森林树冠的穿透能力有限,因此主要与森林的上层相互作用。相比之下,低频,如L波段和P波段,能够穿透植被和树冠层,主要与森林的枝干相互作用(Quegan等,2019)。即将到来的空间SAR任务,包括欧洲航天局(ESA)的BIOMASS和由美国国家航空航天局(NASA)和印度空间研究组织(ISRO)联合开发的NISAR任务,预计会提供大量的L波段和P波段产品。这突显了进一步研究使用PolSAR后向散射和深度学习解决方案的重要性(Quegan等,2019;Réjou-Méchain等,2019;Herold等,2019)。
本研究旨在探索使用CNN U-Net模型来估计植被树冠高度,使用的是在加蓬热带森林中采集的空中L波段和P波段SAR数据。与之前在同一研究区域进行的结合LiDAR、SAR和ML模型的研究不同(Pourshamsi等,2021;Pourshamsi等,2018;Hajj等,2019),我们的方法专注于利用L波段和P波段SAR后向散射数据来估计树冠高度的潜力。这种关注源于即将到来的SAR任务,这些任务将在全球范围内提供这些数据。具体来说,我们旨在利用U-Net模型的能力,捕捉SAR数据极化之间的复杂、非线性关系及其与各种森林层的相互作用(Garestier等,2009;Schlund和Davidson,2018)。本研究的主要创新包括:
1. 引入了一种改进的U-Net架构,专门设计用于估计植被树冠高度,能够有效处理不同SAR极化。
2. 提出的U-Net模型经过特别修改,以增强对森林区域SAR信号的物理解释,确保在不同高度层之间的一致估计。这些修改包括极化融合层、应用于解码器块中每一层的注意力门以及使用ELU激活和Huber损失函数。
3. 进行了全面的评估,以评估该U-Net模型在使用L波段和P波段SAR数据分别估计不同高度层时的局限性。
本文的组织如下。第2节介绍了研究区域和进行实验所使用的遥感数据。第3节详细描述了实施的工作流程的主要步骤,同时介绍了提出的U-Net架构。第4节描述了实验设置,而第5节展示了实验结果。最后,第7节总结了本研究的结论。
研究区域和数据部分提到了使用的SAR数据,这些数据是作为2016年AfriSAR活动的一部分收集的,该活动由欧洲航天局(ESA)和美国国家航空航天局(NASA)合作,旨在支持空间SAR任务概念,以估计森林结构和地上生物量(Hajnsek等,2017;Fatoyinbo等,2021)。该活动收集了来自加蓬多个热带森林区域的空中SAR和LiDAR数据,包括本研究中使用的Lopé研究站点。
研究区域位于加蓬中部Lopé国家公园的东北部(图1)。土地覆盖主要由成熟的阔叶林和草原组成,形成了一种复杂的热带森林,具有高物种多样性和显著的森林密度和结构变化(Zhang等,2022b)。树冠高度显示出双峰模式,强调了景观的结构异质性,其中较短植被(0-10米)的频率较高,而另一高峰则代表了较高的森林区域(图1d)。地形特征包括海拔范围从200米到600米,坡度高达25%(Labriere等,2018)。
在本研究中,我们使用了L波段和P波段SAR数据,这些数据由德国航空航天中心(DLR)F-SAR系统在2016年2月10日同时采集(Hajnsek等,2017)。L波段传感器的中心频率为1325 MHz(λ≈23厘米),而P波段传感器的中心频率为435 MHz(λ≈69厘米)。两个传感器都采集了全极化数据(即HH、HV、VH和VV),分辨率为L波段的1.9米(范围)和0.7米(方位),而P波段的分辨率为3.8米(范围)和2.0米(方位)(表1)。
NASA作为AfriSAR活动的一部分,于2016年3月使用陆地植被和冰传感器(LVIS)传感器收集了LiDAR数据(Fatoyinbo等,2021)。LVIS是一种全波形激光高度计,其典型足迹为22米,由兰利B200飞机在约7.3公里的操作高度上飞行(Blair等,1999;Fatoyinbo等,2021)。RH98被用作树冠高度的参考,即波形能量98%位于地面以上高度(Blair等,2018)。在本研究中,我们考虑了RH98指标,因为它与小足迹LiDAR相比产生了相似的森林树冠高度(Silva等,2018)。RH98被栅格化为20米像素网格,这与足迹直径大致相符。
在本研究中,我们提出了一个改进的U-Net架构模型(图3),即极化融合U-Net(PF-Unet),旨在通过有效利用多极化通道(如HH、HV和VV)来增强SAR后向散射数据中的树冠高度估计。这一模型在本研究中分别应用于每个波段。U-Net模型最初由Ronneberger等(2015)提出,用于生物医学成像中的语义分割任务。近年来,U-Net被广泛应用于各种遥感任务,包括基于回归的任务(Zhang等,2023b;Pascarella等,2023;Li等,2023)。标准的U-Net架构具有对称的编码器和解码器路径,形成U形结构,通过卷积和最大池化块实现相关特征的自动学习和提取(Ronneberger等,2015)。对于回归任务,U-Net通过修改输出层以进行连续值预测而被调整,使其适用于像树冠高度估计这样的像素级任务(Mahesh和H?nsch,2023)。虽然编码器通过特征通道压缩空间维度并捕获上下文信息,但解码器通过结合编码器的高分辨率特征来恢复空间分辨率,利用跳过连接(Wang等,2023;Ronneberger等,2015)。事实上,跳过连接有助于保留空间细节,防止梯度消失,并提高像素级精度(Ge等,2022)。
通常,SAR研究使用简单的HH、HV和VV通道堆叠作为输入,或者应用注意力模块,如压缩和激发(Ge等,2022;Pascarella等,2023)或更复杂的融合网络,如多方位散射特征融合网络(MASFF-Net)用于目标识别(Zhang等,2025)。相比之下,我们使用了一种轻量级的1×1卷积融合块和残差连接。这是专门定制的,以在输入层同时处理HH、HV和VV后向散射通道。这种极化融合块生成极化增强的特征图,并捕捉不同极化之间的交互信息,这对识别森林结构变化和提高模型对树冠高度的敏感性至关重要。值得注意的是,这种极化后向散射融合的概念受到研究的启发,这些研究表明,来自不同后向散射极化的中间特征可以提高森林结构评估的准确性(Zhang等,2023b)。此外,通过残差连接,所有极化的原始后向散射信息都被保留并传递到下一层。注意力门被用于解码器路径中,以聚焦于编码器的最关键特征。门控信号由解码器的上采样输出和跳过连接生成,经过1×1卷积,随后通过指数线性单元(ELU)激活和Sigmoid计算注意力系数。这些系数生成一个空间注意力掩码,通过逐元素相乘应用于编码器特征,选择性地强调相关区域,然后与上采样输出进行拼接。这一过程增强了模型捕捉细粒度细节的能力,这被认为可以提高树冠高度估计的准确性。
值得注意的是,ELU激活函数在每个卷积块后被采用,使得模型能够保留SAR后向散射的物理意义,因为SAR后向散射是以分贝(dB)为单位的对数尺度,主要为负值。事实上,ELU激活函数保留了负输出,有助于将激活值集中在零点附近。这一特性提高了学习动态并加速了收敛。通过允许负输入的梯度流动,ELU缓解了梯度消失问题,有助于更高效和稳定的网络优化(Clevert等,2020)。相反,在输出层使用了修正线性单元(ReLU)激活函数,以确保非负预测,反映树冠高度的物理性质。
最后,为了减轻SAR数据中固有的斑点噪声,选择了Huber损失函数以减少对异常值的敏感性(Clark等,2023)。它基于平方误差计算小残差的损失,并在较大残差时切换到绝对误差,使用一个阈值参数(δ)来确定过渡点(见附录中的公式(A.1))。
为了评估所提出的架构的有效性,我们进行了消融研究,以确认PF-Unet中的每个修改(包括极化融合块、注意力门、ELU激活函数)对基准U-Net设计的改进(见表3)。
在本研究中,U-Net模型被训练了500个epoch,使用自适应矩估计(ADAM)优化器,批处理大小为8,训练和验证曲线在大约100个epoch后收敛(见图A.9)。此外,Huber损失函数的过渡参数(δ)是通过使用验证集进行超参数调整选定的。在超参数调整过程中,还评估了不同的激活函数(ReLU和ELU),最终选择了ELU作为激活函数(见表3)。实验环境包括Windows 11 Home(64位)、TensorFlow 2.10.1、CUDA 12.2和Python 3.9。硬件规格包括32 GB RAM、11代Intel Core i7-11800H CPU(2.30 GHz)和NVIDIA T600 GPU。为了减少U-Net模型中的过拟合,应用了0.1的dropout率和L2正则化惩罚项。学习率被初始化为0.001。
为了展示所提出U-Net模型的潜在改进,我们对所提出的U-Net模型与传统ML方法以及标准基准U-Net模型进行了比较。具体来说,我们专注于两种常用于森林高度估计的ML算法,随机森林(RF)和Light Gradient Boosting Machine(LGBM)(Pourshamsi等,2021;Ge等,2022;Su等,2016;Huang等,2022;Pereira-Pires等,2025)。为了保持模型比较的一致性,我们通过四个GLCM纹理指标(对比度、能量、均匀性和相关性)将空间上下文引入传统ML模型。所选特征因其能够捕捉与森林高度估计相关的互补纹理特性,同时避免与其他描述符的冗余而被选择(Luo等,2023;Zhang等,2022a)。这些纹理特征是从所有三个SAR极化通道中使用5×5窗口导出的。窗口在四个主要方向上应用,如水平、垂直和两个对角线,如之前对树冠高度估计的研究中所采用的(Luo等,2023;Pereira-Pires等,2025)。此外,计算了雷达植被指数(RVI),以提供关于HV后向散射在总后向散射(HH、HV和VV后向散射)中的比例的见解,因为HV后向散射被认为与森林树冠高度和地上生物量有关(Szigarski等,2018)。总共纳入了16个特征,包括原始的SAR极化后向散射数据(HH、HV和VV)作为ML模型的输入。
对RF和LGBM模型的优化使用了基于验证集的5折交叉验证参数搜索策略。对RF和LGBM进行调参的超参数包括估计器(50、100和150)和最大深度(2、5和10)。对于RF,额外的参数包括最小样本分割(4、10和20)和最小样本每叶(2、4和8),以及bootstrap(True、False)。对于LGBM,额外的参数包括学习率(0.01、0.05和0.005)、每棵树的最大叶子数(2、20和50)以及每个子节点的最小样本数(100、200和300)。
模型预测准确性的评估使用了绝对和相对RMSE、R2、平均绝对误差(MAE)和平均偏差(mBias)在像素级别进行。这些指标的计算公式如下:RMSE = √(1/n ∑(y_i - ?_i)2);相对RMSE = RMSE / y? × 100%;R2 = 1 - ∑(y_i - ?_i)2 / ∑(y_i - y?)2;mBias = 1/n ∑(y_i - ?_i);MAE = 1/n ∑|y_i - ?_i|,其中y_i是真实值,?_i是预测值,y?是真实值的平均值,n表示总测试像素数。此外,计算了残差(y_i - ?_i),这些残差通常描绘了误差模式,其中正残差对应低估,负残差表示高估。除了总体残差,还计算了不同树冠高度层(以10米为步长,0米到10米、>10米到20米等)的残差,以提供有关树冠高度范围内误差分布的信息。在本研究中,使用了5折交叉验证方法进行超参数调整。我们进行了15次试验,以统计上比较模型和波段的性能。为了评估模型性能的差异,分析了每个模型(RF、LGBM、U-Net和PF-Unet)的15次独立试验的RMSE值。进行了一次单因素方差分析(ANOVA)来统计测试模型之间的差异,应用Tukey的HSD(诚实显著差异)进行成对比较。对于波段比较,仅考虑了表现最佳的模型,并使用t检验评估统计差异。
模型基准比较显示,两种U-Net模型在树冠高度估计中的准确度通常高于浅层ML模型,这得益于CNN能够更有效地捕捉SAR后向散射系数与树冠高度之间的非线性关系。这适用于L波段和P波段的预测。U-Net模型在RF和LGBM上持续表现更好,减少了6%–7%的RMSE。具体而言,对于两种SAR波长,PF-Unet模型实现了几乎为零的mBias,而标准U-Net模型在L波段的mBias值为0.72米,在P波段的mBias值为-1.68米。此外,对于L波段,PF-Unet模型实现了最低的RMSE(4.35米,15.73%)和最高的R2(0.93),而在P波段实现了RMSE(4.43米,15.95%)和R2(0.92)(表2)。
ANOVA测试显示模型之间RMSE存在显著差异(F = 120.11,p < 0.001),证实了模型性能的系统性差异。Tukey的HSD测试显示PF-Unet显著优于所有其他模型(p < 0.001),实现了最低的RMSE值。U-Net也表现出显著低于LGBM的RMSE(p < 0.001),而RF和LGBM之间没有显著差异(p = 0.994)。模型性能趋势在L波段和P波段上保持一致,PF-Unet实现了最佳的预测准确性。在PF-Unet的情况下,L波段和P波段的相对RMSE差异小于1%,表明两种波长之间的性能差异很小(表2)。统计显著性测试表明,两种波长在树冠高度估计准确性方面没有显著差异(p > 0.05)。
消融研究确认了各个架构组件对模型性能的贡献。将ReLU替换为ELU激活函数提高了预测准确性,尤其是在L波段数据中。最大的改进来自于添加极化融合块,这降低了L波段的RMSE约9%,P波段的RMSE约3%。添加注意力门提供了另一个小但一致的提升,而当所有组件一起使用时,模型实现了最佳性能(表3)。
更详细地观察树冠高度分布,发现传统ML模型(RF和LGBM)在所有树冠高度范围内表现出更大的离散性和更多的异常值,而基准U-Net和PF-Unet模型在所有树冠高度中表现出更高的预测一致性。值得注意的是,RF和LGBM模型在两种波段中都表现出饱和现象,而U-Net模型显著降低了饱和,进一步强调了其在准确捕捉较高树冠高度方面的能力(图4和图5)。然而,值得注意的是,这些模型也显示出在L波段中对超过45米的树冠高度低估的趋势。
获得的预测地图证实了U-Net和PF-Unet模型在减少像素级噪声和产生更平滑、更准确的高度预测方面的能力,这比本研究中使用的传统ML模型更好(图6和图7)。在参考树冠高度图的视觉比较中,RF和LGBM模型低估了较高的树冠高度。相比之下,基于U-Net的模型能够捕捉高度变化,同时减少噪声(例如图6和图7的第一行)。在图6和图7的第二行和第三行中,传统ML模型引入了显著的像素级伪影,并倾向于在较低范围内高估树冠高度。总的来说,U-Net和PF-Unet模型在与参考图的比较中表现出一致的预测,证实了它们在捕捉低树冠高度和高树冠高度方面的能力。
L波段和P波段预测之间的比较揭示了模型性能的相似之处和差异。对于L波段,U-Net和PF-Unet模型的树冠高度预测更平滑和更准确。相比之下,RF和LGBM模型倾向于低估较高的树冠高度和高估较短的树冠高度。基于U-Net的模型减少了这些不一致。对于P波段,观察到了类似的趋势,但所有模型的像素级噪声和估计变异性稍高。在RF和LGBM中,较高的树冠高度低估和较低树冠高度的高估是显而易见的。尽管U-Net和PF-Unet在P波段的表现优于传统ML模型,但它们的预测与L波段结果相比略显粗糙。
总体而言,两种U-Net方法在不同高度层和两种波长中都表现出最低偏差和残差变异性的趋势,这突显了基于U-Net的模型的稳健性。然而,L波段通常表现出比P波段更小的偏差和残差变异性。值得注意的是,所有模型在样本量较大的层中表现最佳,如0-10米和30-40米层,而在样本量较小的层中,偏差和残差变异性通常较高。基于样本量的依赖性在两种U-Net模型中较小,这表明它们的偏差和残差变异性比ML模型更小(表A.4和表A.5)。
本研究的讨论部分指出,L波段和P波段的树冠高度估计结果表明,较长波长的PolSAR后向散射具有很高的潜力。此外,通过利用这些波长的不同极化特性,我们的PF-Unet模型展示了在不同树冠高度层中准确估计树冠高度的有效方法。虽然干涉SAR数据已被广泛用于树冠高度估计(Pourshamsi等,2018;Guliaev等,2021;Choi等,2023;Carcereri等,2024;Xie等,2024),但仅使用较长波长的后向散射数据进行树冠高度估计的研究仍然相对较少。我们的研究结果表明,使用基于ML的方法,L波段和P波段的SAR后向散射能够实现高精度的树冠高度获取,RMSE为4.35米(15.73%)和4.43米(15.95%),在L波段中R2为0.93,在P波段中R2为0.92。在相同研究区域中,使用有效的基线方法在PolInSAR基础上进行L波段和P波段数据的树冠高度获取,发现RMSE为4.43米,R2为0.82(Xie等,2024)。基于L波段PolInSAR高度和LiDAR的组合,使用支持向量机(SVM)方法实现了RMSE为7.1米,R2为0.81(Pourshamsi等,2018)。除了L波段和P波段,较短波长也经常被使用,这得益于空间数据的丰富性(Schlund等,2023;Guliaev等,2021;Choi等,2023;Carcereri等,2024)。使用干涉的TanDEM-X数据,Guliaev等(2021)在Lopé地区实现了RMSE为7.4米,R2为0.40,其中由于X波段的有限穿透能力而预计低估的区域被排除在外。此外,使用干涉SAR数据的CNN模型在加蓬国家范围内进行树冠高度获取,其中Lopé地区的RMSE和R2分别为5.34米和0.40(Carcereri等,2024)。可以认为,本研究中展示的L波段和P波段后向散射信息在植被树冠高度估计中的高潜力,是由于较长波长能够穿透森林树冠,从而使后向散射信号对不同树冠高度和生物量水平敏感(Sandberg等,2011;Schlund和Davidson,2018;Quegan等,2019)。与依赖干涉SAR数据的获取相比,利用后向散射系数独立于相干数据获取。因此,所提出的PF-Unet模型可以作为干涉方法的补充或替代,特别是对于如NISAR和BIOMASS等可能受到时间去相关影响的重复通过任务(Quegan等,2019;Kellogg等,2020;Guliaev等,2024)。然而,需要注意一个基本的权衡:虽然PolInSAR方法主要依赖于半经验模型(如Random Volume over Ground),这些模型通常不需要或仅需要有限的站点特定训练数据(Xie等,2024;Schlund等,2023;Guliaev等,2021),但深度学习模型如PF-Unet需要大量且有代表性的训练数据集,这可能限制其在缺乏空中LiDAR数据或现场调查的地区的适用性。
本研究的另一个关键发现是,L波段和P波段在所有本地校准的ML模型中的准确度指标之间几乎没有差异。结果表明,无论波长如何,ML模型——特别是先进的架构如PF-Unet——可能能够提供稳健的预测,减少对特定频率波段的依赖。这在未来的实际应用中尤为重要,因为数据在不同波段的可用性可能会有所不同,例如在北美和欧洲由于空间物体跟踪雷达(SOTR)限制而未被P波段BIOMASS任务覆盖的地区(Quegan等,2019)。对波段和实际树冠高度的准确性的鲁棒性尤其有价值,因为树冠高度通常在事前未知,因此通常无法预先选择单一波段。这一发现与常见的预期相反,即由于其更大的穿透深度,P波段SAR表现更好(Schlund和Davidson,2018;Sandberg等,2011;Quegan等,2019;Xie等,2024)。然而,我们的研究结果与在Lopé热带森林中使用TomoSAR数据进行树冠高度估计的研究结果一致,其中L波段和P波段的表现几乎没有差异(Liu等,2021)。一般来说,P波段在较低层的高估表明P波段SAR对较短的树冠不敏感,可能更受地面相互作用的影响,而L波段则可能更有效,因为Lopé森林站点的结构异质性可能使较短的L波段波长能够更有效地与树冠相互作用(Ho Tong Minh等,2014;Schlund和Davidson,2018;Guliaev等,2024)。
与机器学习模型的性能比较显示,PF-Unet模型在传统ML方法和标准U-Net模型上的优越性突显了其创新设计。与深度学习方法不同,浅层ML模型独立处理每个像素,忽略了SAR图像中的空间依赖性。因此,它们依赖于手工设计的特征(如GLCM纹理、极化比值)来近似空间上下文(Ge等,2022;Zhang等,2023b)。相比之下,PF-Unet的卷积层能够自动提取层次化的空间-光谱特征,保留相邻像素之间的上下文关系——这是解决密集热带树冠复杂散射机制所必需的能力(Pascarella等,2023;Li等,2023)。极化融合块进一步增强了这一点,通过1×1卷积和残差连接显式结合多通道SAR数据(HH、HV、VV),利用与垂直森林结构相关的跨极化相互作用(Pourshamsi等,2021;Guliaev等,2024)。解码器路径中的注意力门通过动态加权编码器特征,放大了这一优势,聚焦于具有强后向散射-地面相互作用的区域(如高树),同时抑制噪声(Wang等,2023)。这与传统ML模型形成对比,传统ML模型缺乏适应性优先考虑信息性空间区域的机制,导致对树冠高度变化的简化表示(Clark等,2023)。
RF和LGBM在准确估计超过40米的高度方面存在困难,这可能归因于三个相互关联的因素。首先,ML模型在训练数据分布之外进行外推时遇到困难。研究区域的树冠高度显示出双峰分布,其中不到1%的样本超过50米(图1c)。在高树冠层的稀疏训练数据限制了ML模型学习稳健关系的能力,加剧了未表示类别的误差(Bernett等,2024)。其次,SAR后向散射饱和——这是高生物量森林中众所周知的现象——降低了密集树冠对高度变化的敏感性(Garestier等,2009;Schlund等,2018)。虽然浅层ML模型线性近似这些饱和信号,但PF-Unet的非线性激活函数(ELU)和深层层次结构更好地模拟了SAR后向散射的对数尺度(dB),捕捉了RF和LGBM可能错过的细微变化(Clevert等,2020)。第三,ML模型缺乏内在的空间正则化,使其容易受到像素级噪声和过拟合的影响。例如,RF和LGBM由于斑点引起的纹理伪影而高估低树冠(<20米),而由于缺乏穿透信号的上下文而低估高树冠(>40米)(图7)。相比之下,PF-Unet的编码器-解码器架构,结合Huber损失,内在地平滑斑点噪声
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号