一种利用遥感和气象数据推导全天候蒸发量的实用方法
《International Journal of Applied Earth Observation and Geoinformation》:A practical method for deriving all-weather ET from remote sensing and meteorological data
【字体:
大
中
小
】
时间:2025年11月06日
来源:International Journal of Applied Earth Observation and Geoinformation 8.6
编辑推荐:
本研究提出一种结合物理模型与机器学习算法的实用工作流程,用于生成全天气的日蒸散量数据。通过整合遥感数据与气象数据,并利用Noah模型补充MODIS云覆盖缺失的LST数据,构建了云覆盖和非云覆盖条件下的独立机器学习模型,最终集成生成全天气的蒸散量产品。验证结果表明,该产品在Nebraska地区与实地测量数据高度吻合,R2值均超过0.70,RMSE分别为90.03、78.50和79.77 W/m2,日蒸散量误差在0.93-1.04 mm之间,能有效支持农业决策。
日常实际蒸散发(ET)是高效水资源管理和灌溉规划中的关键变量,其准确性和及时性对于支持农业决策至关重要。本研究提出了一种实用的工作流程,通过整合遥感和气象数据生成全天候、每日的ET数据。在这一过程中,基于能量平衡理论构建了像素级别的地表温度(LST)与植被覆盖度(FVC)的空间关系,并结合遥感、气象以及物理模型的输出作为机器学习(ML)算法的输入特征,以估算ET。为了应对云覆盖导致的数据缺失问题,研究利用Noah地表模型推导出的LST数据补充MODIS LST数据的缺失,同时分别构建了针对无云和有云条件的ML模型。这两种模型预测的ET值被整合,从而生成全天候的ET产品。通过与内布拉斯州(NE)在2004年和2012年的实地测量数据进行对比分析,结果显示该方法具有良好的性能,R2和RMSE分别为0.70和90.03 W/m2(NE1),0.75和78.50 W/m2(NE2)以及0.75和79.77 W/m2(NE3)。在2020年的每日ET验证中,R2和RMSE分别为0.76和0.96 mm,0.75和1.04 mm,以及0.75和0.93 mm。无论是剖面比较还是全域比较,结果都表明全天候ET产品能够有效捕捉研究区域内的年度ET变化。该ET数据集每日更新,并通过CropSmart数据信息门户公开获取。
### 1. 引言
蒸散发(ET)是地表向大气中蒸发和植物蒸腾作用的总和,它在连接能量、水和碳循环中起着重要作用(Pan等,2020)。除了在气候学和水文学中的重要性,ET在农业应用中也扮演着关键指标的角色,为作物生长监测和产量预测提供了有价值的见解。特别是在农业实践中,及时的ET信息对于有效的作物水分管理和灌溉计划至关重要(George等,2002;Hu等,2023;Rhenals和Bras,1981;Sharma等,2021)。因此,准确估计农田的ET对于提升我们对农业系统理解和支持农业生产的科学决策至关重要。
为了估算ET,已经开发了许多方法,这些方法结合了遥感数据和气象观测数据(Anderson等,2007;Bastiaanssen等,1998;Di,1991;Jiang和Islam,2001;Su,2002)。这些方法可以大致分为单一源和双源地表能量平衡模型,以及基于地表温度和植被覆盖度特征空间的上下文模型(Chen和Liu,2020)。这些模型在无云条件下估算ET表现出良好的准确性。其中,基于LST/FVC特征空间的方法通过地表能量平衡理论估计每个像素的干和湿边缘条件,使其适用于大规模应用。
然而,基于LST的方法的有效性受到无云卫星观测数据可用性的限制。尽管已经提出了几种算法来填补由于云覆盖导致的LST数据缺失,但这些填补数据仍然存在显著的不确定性。特别是通过统计或时空插值方法重建的LST值只能代表理想无云条件下的近似值,可能无法准确反映实际地表温度。因此,独立的LST数据可以进一步考虑,以填补云覆盖条件下的MODIS LST数据缺失。
为了估算云覆盖条件下ET,提出了几种基于通量的方法。这些模型基于这样的理论:植被冠层通量在短时间内变化不大。冠层阻力通常与植被结构或生理指标相关,如叶面积指数(LAI)、归一化植被指数(NDVI)和净初级生产力(NPP)。这些指标可以通过可见光、近红外(NIR)和短波红外(SWIR)波段的遥感数据推导出来(Fisher等,2008;Luo等,2018;Mu等,2011;Zhang等,2010)。
尽管这些模型有坚实的理论基础,但它们也存在一些限制。首先,它们依赖于辅助数据集,如地表或根区土壤湿度,这可能引入较大的不确定性。其次,它们在植被稀疏的地区不太可靠,因为在这些地区ET主要由土壤蒸发而非植物蒸腾主导(Chen和Liu,2020)。由于这些限制,基于通量的模型在操作性方面通常比基于LST的模型更复杂且不太实用。
当使用卫星观测数据监测作物生长时,生成最新的ET数据集至关重要。这催生了对实用的全天候ET估算方法的强烈需求。一种常用的方法是使用基于LST的方法估算无云像素的ET,同时使用非LST方法估算云覆盖像素的ET。然后,将这两种ET数据合并形成一个产品(Leng等,2017)。然而,基于LST和非LST方法之间的差异可能会引入不确定性,降低最终ET数据集的一致性。
另一种方法是通过基于LST/FVC的方法校准通量模型的参数,如土壤和冠层阻力。然后,使用优化后的模型估算所有天气条件下的ET(Cui等,2021)。此外,由于地表温度数据也可以通过地表模型(LSMs)如Noah模型生成,另一种可行的流程是使用LSM推导出的LST填补基于卫星的LST观测数据中的缺失。填补后的数据集可以作为基于LST的ET模型的输入,从而生成每日、空间连续的ET数据。
除了基于物理的建模方法,机器学习(ML)回归技术提供了另一种将植被结构、水文状况和光合作用活动与卫星观测的光谱数据相关联的途径(Asner等,2018;Liu等,2020)。在ET估算的背景下,ML方法越来越多地被用于预测ET,结合气象变量和遥感观测数据(Bellido-Jimenez等,2021;Chen等,2020;Kim等,2020)。大多数现有研究依赖于从卫星数据中获得的植被指数,如归一化植被指数(NDVI)和叶面积指数(LAI)作为ET估算的核心输入(Amani和Shafizadeh-Moghadam,2023;Keabetswe等,2024;Liu等,2024)。一些研究还结合了物理模型的输出,以提高ML模型的性能。然而,这些方法通常受到云覆盖条件下物理模型输出的限制,因为物理模型的输出往往依赖于地表温度数据,而这些数据在云覆盖条件下不可用(Bai等,2024;dos Santos等,2024;Hao等,2022;Jiang等,2024)。
本研究旨在通过结合基于LST/FVC特征空间方法和机器学习,开发一种实用的全天候ET估算工作流程。然后,将该方法应用于生成区域尺度上的最新ET产品。本研究使用的数据集在第2节中描述。第3节详细介绍了推导全天候ET产品的完整工作流程。第4节展示了多个比较分析的结果,以评估ET数据的准确性。主要结论在第5节中总结。
### 2. 数据集和方法
#### 2.1. 研究区域
研究区域位于美国中西部的内布拉斯州(NE),该州是玉米带的重要组成部分。NE农业产量高,玉米和大豆是该地区的主要作物。本研究使用了来自NE的三个AmeriFlux农田站点的实地数据:US-Ne1、US-Ne2和US-Ne3。这些站点的位置如图1所示。这些站点在作物轮作和灌溉实践方面有所不同:US-Ne1是一个持续灌溉的玉米站点,US-Ne2实行灌溉玉米-大豆轮作,US-Ne3是一个雨养玉米-大豆轮作站点。这些站点的年平均降水量约为790 mm,年平均温度约为10°C。
#### 2.2. 通量数据
本研究使用了两个来自研究区域的实地数据集。第一个数据集包括2003年至2012年间在三个NE站点获得的每小时测量数据,来自FLUXNET数据门户(https://fluxnet.org/)。这些数据集经过填补和质量控制。在卫星过顶时间校正的能量平衡闭合校正因子(LE_CORR)下的潜热通量(LE)被用作参考LE。仅考虑在年日(DOY)101至DOY 300期间收集的数据,这对应于玉米和大豆的生长季节。由于本研究使用MODIS Terra数据估算LE,因此仅考虑在卫星过顶时间(当地时间10:30,相当于三个站点的UTC时间16:30)收集的实地LE观测数据。
第二个数据集包括2020年在NE收集的实地观测数据,来自AmeriFlux数据门户(https://ameriflux.lbl.gov/)。这些数据是原始的、未经校正的测量值,是2020年唯一可用的数据。与FLUXNET数据集类似,仅使用在10:00至11:00当地时间收集的LE观测值作为地面真实值。所有训练样本根据MODIS LST数据的可用性被分为无云或有云条件(参见第2.3.1节)。仅使用无云样本进行模型训练。每个站点的训练样本数量在表1中给出。此外,2020年这三个站点的每日ET通过使用所有小时的瞬时LE计算得出。
#### 2.3. 遥感和网格化气象数据
本研究使用的遥感数据包括MODIS地表反射率、地表温度(LST)和叶面积指数(LAI)数据集。气象输入数据来自北美陆地数据同化系统(NLDAS)和国家气象模型服务(NWM),与MODIS数据集结合,以在每个像素基础上计算基于能量平衡模型的特征。此外,当使用机器学习模型预测蒸散发(ET)时,使用NLDAS Noah模型的LST数据填补MODIS LST在云覆盖条件下的缺失。详细的每个数据集描述如下。
##### 2.3.1. 遥感数据
本研究使用的MODIS产品包括地表反射率(MOD09GA)、地表温度(LST)(MOD11A1)和叶面积指数(LAI)(MOD15A2)。对于所有无云像素,根据Liang(2001)和Liang(2004)的方法,从MODIS光谱发射率波段(波段31和32)和可见光至近红外波段(波段1-7)计算宽带发射率和地表反照率。归一化植被指数(NDVI)是从MODIS波段1和2的光谱反射率计算得出(Rouse等,1974)。对于云覆盖像素,使用同一像素的最新无云值来填补NDVI、反照率和发射率的缺失。由于在实时系统中不完整的时序数据可能引入显著的不确定性,因此在这一步骤中未应用填补算法。最后,所有从MODIS数据导出的变量都通过B-linear方法重采样到1 km的空间分辨率。从2003年至2012年以及2020年,这三个NE站点的变量时序剖面被提取,时间范围为每年的DOY 100至DOY 300。
##### 2.3.2. 气象数据
本研究使用了三种网格化气象数据集。第一个数据集是NLDAS-2 File A数据,覆盖2003年至2012年期间(Xia等,2012)。该数据集覆盖美国连续的地区(CONUS)自1979年以来,空间分辨率为0.125度,时间分辨率为每小时。它包括向下长波和短波辐射、地表压力、2米以上的特定湿度、2米以上的温度和风速等变量。为了本研究,提取了与当地时间10:00–11:00(UTC时间16:00)对应的气象数据,并将所有参数重采样到1 km,以与MODIS数据的空间分辨率对齐。
第二个数据源是NWM数据集(https://nomads.ncep.noaa.gov/pub/data/nccf/com/nwm/prod/),这是一个覆盖CONUS的小时分析和预报系统(NOAA-OWP,2016)。NWM提供了与NLDAS数据集相同的变量,但空间分辨率为500米,时间分辨率为每小时。为了本研究,获取了2020年的NWM数据,并将其重采样到1 km以匹配MODIS数据集。
第三个气象数据集是NLDAS Noah地表模型(LSM)数据集(Wei等,2013),空间分辨率为0.125度。该数据集被包括进来,因为它提供了基于LSM的地表温度产品(“皮肤温度”),这对于填补云覆盖条件下MODIS LST数据的缺失非常有用。为了这个目的,将Noah LST值重采样到1 km分辨率。
#### 2.4. 农作物类型和种植信息数据
农作物类型数据是植被高度估算的重要输入。本研究使用了2020年的Crop Data Layer(CDL)数据,该数据集来自Cropscape门户(Boryan等,2011;Han等,2012)。CDL由美国农业部(USDA)的国家农业统计服务(NASS)开发。它使用中分辨率卫星影像与实地数据相结合,并通过决策树算法对农作物类型分布进行分类。CDL数据的空间分辨率为30米,并在每年2月更新。2020年内布拉斯州的CDL数据从Cropscape获取,历史CDL数据用于预测2021年初生长季节的内布拉斯州农作物类型图(Hao等,2020;Zhang等,2021)。对于计算生长积温(GDD)所需的作物种植日期信息,数据从GeoFairy平台获取(Sun等,2017)。
### 3. 方法
#### 3.1. 流程图和比较设计
图2展示了本研究的流程图。首先,使用2003年至2012年的数据测试物理模型和机器学习模型对LE的映射能力,并评估使用Noah LST数据替代MODIS LST数据以填补云覆盖导致的数据缺失的潜力。在完成所有评估后,使用2003年至2012年的所有可用数据训练LE估算模型,然后将其应用于计算2020年的LE。瞬时LE估计值被转换为每日ET,并使用2020年的实地数据验证瞬时LE和每日ET。此外,本研究生成的每日ET与高分辨率陆地数据同化系统(HRLDAS)的ET进行了比较。
##### 3.1.1. 比较1
使用2003年至2012年的所有无云实地数据,比较三种ML方法对LE估算的性能。为了确保训练和验证数据在空间上的独立性,设计了三种空间转移性测试:(1)使用NE01和NE02的数据进行训练,并在NE03上进行测试;(2)使用NE01和NE03的数据进行训练,并在NE02上进行测试;(3)使用NE02和NE03的数据进行训练,并在NE01上进行测试。对于每项测试,训练样本范围从单一年份(2003年)到九年间(2003–2011年)。例如,使用2003年NE01和NE02的所有样本训练ML模型,然后将这些模型应用于估算2004年NE03的LE,继续这一过程以生成2004–2012年的LE时间序列。评估的ML回归方法包括随机森林回归(RF)、支持向量回归(SVR)和多层感知器神经网络(MLP)。
##### 3.1.2. 比较2
在2003年至2012年期间,分别针对无云和有云样本开发了LE估算的ML模型。然后,使用无云模型生成无云条件下的LE,有云模型生成有云条件下的LE。通过将无云和有云模型的输出整合,获得了全天候的LE时间序列,并与实地LE进行比较。与比较1类似,每年的LE时间序列通过使用前一年收集的样本训练ML模型获得。例如,在本比较中,2010年的全天候LE是通过整合使用2003年和2009年样本训练的无云和有云LE模型的输出获得的。
##### 3.1.3. 比较3
使用2003年至2012年期间所有无云样本训练ML模型,并分别针对无云和有云条件获取模型。然后,使用这些模型计算2020年的LE,并通过整合无云和有云条件的LE生成全天候的LE。瞬时LE通过参考ET分数方法转换为每日ET,并使用2020年的实地数据验证瞬时LE和每日ET。此外,生成的每日ET与HRLDAS的ET进行了比较,HRLDAS是一种基于LSM的每日ET产品(Chen等,2007)。
#### 3.2. ESVEP-ML方法
Hao等(2021)提出了一种新的工作流程(ESVEP-RF),通过将ESVEP模型与随机森林(RF)算法结合,用于估算ET。在这一方法中,遥感变量、气象参数和ESVEP模型的输出作为RF模型的输入特征,而实地数据作为训练样本。训练后的RF模型随后用于生成LE。这种方法相较于原始的ESVEP模型展示了更高的准确性。然而,该研究仅使用了随机森林算法。本研究的一个目标是评估和比较多种机器学习算法在ET估算中的性能。因此,除了ESVEP模型,还采用了三种机器学习回归方法,并在本节中简要介绍。
##### 3.2.1. ESVEP模型
基于端元的土壤和植被能量分配(ESVEP)模型是一种物理基础的方法,基于LST/FVC(地表温度/植被覆盖度)梯形特征空间,这是ET估算中常用的工具(Moran等,1994)。在由LST和FVC定义的二维特征空间中,四个理论端元代表极端地表条件:干土壤、湿土壤、干植被和湿植被,如图3所示。四个端元的LST可以表示为:
$$T^* = \left( T_{sd}^4 \cdot (1 - F_v) + T_{vw}^4 \cdot F_v \right)^{1/4}$$
其中,$F_v$是给定像素的FVC,通过以下公式计算:
$$F_v = \left( \frac{NDVI - NDVI_{min}}{NDVI_{max} - NDVI_{min}} \right)^2$$
其中,NDVI由MODIS数据的红光和近红外波段(波段01和波段02)计算得出。$NDVI_{max}$和$NDVI_{min}$在本研究中被设定为0.2和0.86,依据Prihodko和Goward(1997)的研究。如果像素的LST低于$T^*$,则认为其位于三角形ACD中,土壤蒸发(ET_s)和植被蒸腾(ET_v)可以通过以下公式计算:
$$ET_s = \frac{OX}{OP} \cdot E_{s,p}$$
$$ET_v = E_{v,p}$$
其中,OX和OP分别是点O和X、点O和P之间的线段长度。如果像素的LST高于$T^*$,则认为其位于三角形ABD中,土壤蒸发(ET_s)和植被蒸腾(ET_v)可以通过以下公式计算:
$$ET_s = 0$$
$$ET_v = \frac{O'X'}{O'P'} \cdot E_{v,p}$$
其中,O'X'和O'P'分别是点O'和X'、点O'和P'之间的线段长度。需要注意的是,本节中的“ET”指的是MODIS Terra卫星过顶时间的瞬时潜热通量,当生成每日ET产品时,需要将瞬时潜热通量扩展为24小时ET(参见第3.2.3节)。
##### 3.2.2. 机器学习回归模型
本研究采用了三种机器学习回归算法:随机森林(RF)、支持向量回归(SVR)和多层感知器神经网络(MLP)。
随机森林(RF)算法由Breiman(2001)提出,是一种用于回归和分类的集成机器学习方法。在训练过程中,每个回归树从训练样本集中随机选择三分之二的样本,并仅使用部分特征构建。其中,“叶节点”表示无法进一步分割的节点,且该节点内的所有样本属于同一类别。在构建每棵树后,剩余的三分之一训练样本用于测试,测试误差称为“袋外误差”。随机森林模型随后用于预测测试数据,并且预测数据集应具有与训练数据集相同的特征。对于回归预测,输出将是所有单棵树预测结果的平均值。由于RF算法具有处理输入特征复杂交互关系、自动选择最优特征构建模型等优势,它已被广泛用于定量地表参数的回归(Belgiu和Dr?gu?,2016;Filgueiras等,2020;Loozen等,2020;Oliveira等,2020;Wang等,2016)。
支持向量回归(SVR)是一种监督的非参数回归方法,来源于统计学习理论(Mountrakis等,2011)。SVR的目标是找到一个函数$f(x) = (w, x) + b$,使得每个数据点的值$y(x)$在要求的精度范围内($?$)。有时,某些数据点的$y(x)$值可能超出由最优超平面定义的边界,此时误差可以定义为$ξ$。SVR的训练过程是找到超平面以最小化所有训练样本的$ξ$。对于预测过程,我们使用测试数据作为输入,SVR的输出将是超平面预测的LE。SVR的优势在于它可以处理样本数量少于特征数量的训练样本集,并且该方法已被广泛用于生态系统生物物理和生物化学变量的检索(Ichii等,2017;Mountrakis等,2011;Tuia等,2011;Wang等,2017)。
人工神经网络(ANN)是一种自我适应的系统,可以根据内部和外部信息调整其结构。在各种类型的神经网络模型中,最广泛使用的是多层感知器(MLP),这是一种前馈人工神经网络模型(Kavzoglu和Mather,2003)。MLP具有多个层次:输入层、隐藏层和输出层,每一层由多个节点(人工神经元)组成,所有节点相互关联。输入层表示训练或测试样本的原始特征,每个输入层代表样本的一个变量。隐藏层用于数据处理,并将结果传递到输出层,输出层提供回归结果。在训练过程中,每个节点的权重被初始化,并且训练样本被输入到网络中。回归结果与训练样本的地面真实数据进行比较,如果预测结果与地面真实数据的差异大于初始化的阈值,权重将被调整。这一过程将持续进行,直到达到最大迭代次数或差异达到预定义水平。MLP回归已被用于作物病害检测和生物量预测(Duarte-Carvajalino等,2018;Masjedi等,2018)。
本研究中所有机器学习模型均使用Python中的scikit-learn库实现(Pedregosa等,2011),并使用2004年至2013年的所有样本对每个ML模型的参数进行调优。对于RF模型,树的数量被设定为1,000,每个分割使用的特征数量被设定为“log2”。在SVR模型中,使用了高斯径向基函数(RBF)核,参数“C”和“gamma”分别被设定为10和0.1。对于MLP模型,我们有一个隐藏层,包含50个单元,其他参数“激活函数”、“alpha”和“求解器”分别被设定为“relu”、“0.05”和“adam”。
##### 3.2.3. 24小时ET生成
为了生成2020年的最新每日ET数据,我们需将瞬时潜热通量扩展为24小时ET。该扩展的原理是,使用稳定的代理变量,如能量分数、蒸发分数和Kc(实际植被ET与参考ET的比率),作为瞬时与每日ET之间的桥梁。已有多个研究探讨了这种扩展,并提出了多种方法(D. Colaizzi等,2006;Jiang等,2021;Nassar等,2021;Tang和Li,2017a)。我们采用了一种广泛应用的方法,假设在图像获取时计算的瞬时参考ET分数(ET_rF)等同于24小时平均ET_rF(Allen等,2007)。ET_rF的计算方式为瞬时LE与参考ET的比率,扩展的ET可以通过以下公式计算:
$$ET_{ML} = \frac{LE_{ML}}{LE_{ref}} \cdot ET_{daily,ref}$$
其中,$LE_{ML}$和$LE_{ref}$分别是本研究计算的LE和参考瞬时LE,$ET_{ML}$和$ET_{daily,ref}$分别是扩展的每日ET和参考每日ET。在本研究中,我们使用Penman-Monteith方程计算参考瞬时LE和每日ET(Monteith,1965):
$$LE_{ref} = \frac{Δ \cdot (R_n - G) + ρ \cdot C_p \cdot VP D / r_a}{Δ + γ \cdot (1 + r_s / r_a)}$$
$$ET_{daily,ref} = \frac{0.408 \cdot Δ \cdot (R_n - G) + γ \cdot (900 / (T + 273)) \cdot u_2 \cdot V P D}{Δ + γ \cdot (1 + 0.34 \cdot u_2)}$$
对于瞬时参考LE计算,$R_n$表示地表净辐射(W/m2),G表示土壤热通量(W/m2),$C_p$表示空气的比热容(J/(°C m3)),γ表示心理常数(kPa/°C),Δ表示饱和水汽压与气温之间的斜率(kPa/°C),VPD表示空气的水汽压差(kPa),$r_s$和$r_a$分别表示地表和气动阻力。对于每日参考ET计算,$R_n$和G表示每日总地表净辐射(MJ/m2),$u_2$表示每日平均风速(m/s)。
#### 3.3. 准确性评估
我们使用了实地LE和ET(参见第2.2节)来验证预测的LE(参见第4.1至4.3节)和ET(参见第4.4节),并使用了均方根误差(RMSE)和决定系数(R2)作为评估指标。尽管ESVEP模型能够将土壤部分的辐射和热通量与植被部分分开,但来自三个NE站点的实地数据并未提供土壤蒸发和植被蒸腾的独立测量,因此我们仅验证了总实际LE。用于计算RMSE和R2的公式如下:
$$RMSE = \sqrt{\frac{\sum (z_f - z_0)^2}{N}}$$
$$R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y}_i)^2}$$
其中,N是样本量,$z_f - z_0$是每对实地和预测LE的差异,$\sum (y_i - \hat{y}_i)^2$是残差平方和,$\sum (y_i - \bar{y}_i)^2$是数据与均值之间距离的平方和。
### 4. 结果与讨论
#### 4.1. 机器学习方法比较
我们评估了三种机器学习(ML)回归算法在ESVEP-ML框架内的性能,用于估算LE。图4展示了在三个NE站点中,模型LE与实地观测的散点图及其相关统计指标。在NE1,RF表现最佳,R2为0.98,RMSE为89.41 W/m2,其次是SVR(RMSE = 90.41 W/m2,R2 = 0.96)和MLP(RMSE = 91.46 W/m2,R2 = 0.92)。这些结果表明,在灌溉玉米田中,RF提供了更高的预测准确性。在NE2和NE3也观察到了类似的趋势,RF优于其他模型。在NE2,RF的RMSE为83.47 W/m2,R2为0.96;在NE3,RMSE为87.01 W/m2,R2为0.98。这些发现表明,RF在灌溉和雨养玉米-大豆轮作系统中均保持了良好的性能。
#### 4.2. 云覆盖LE的准确度评估
我们提取了2003年至2012年期间,三个NE站点的MODIS LST和Noah LST的无云值。图6展示了MODIS LST和Noah LST之间的散点图及其相关分析。尽管拟合线的斜率为0.92,接近1:1线,但某些Noah LST值显著高于MODIS LST值,导致决定系数(R2)约为0.42。这表明,基于MODIS LST和Noah LST的LE计算模型应分别开发。图7显示了使用云覆盖样本开发的LE计算模型的准确度。在NE1、NE2和NE3站点,预测LE与实地观测之间的RMSE分别为88.98 W/m2、73.09 W/m2和75.82 W/m2。拟合的回归线始终位于1:1线之上,表明在高通量条件下LE存在系统性高估。这一趋势在图8中进一步展示。例如,在NE1和NE2站点的生长高峰期(DOY 180–240),实地LE值在400到600 W/m2之间,而Noah LST推导出的LE值在200到300 W/m2之间(2004年至2008年)。这种差异可能由于训练数据集中缺乏高LE条件,限制了模型在目标年份对极端事件的泛化能力。鉴于RF模型在所有站点和年份中表现出一致的优越性能,后续的ESVEP-ML框架分析均仅使用RF算法进行。
#### 4.3. 全天候LE的准确度评估
通过整合无云和有云条件下的LE估算模型,生成了全天候LE,并进一步与实地LE测量进行比较。图9显示了在2004年至2012年期间,全天候LE与实地LE的散点图及其相关统计指标。在NE1、NE2和NE3站点,RMSE分别为90.03 W/m2、78.50 W/m2和79.77 W/m2。拟合回归线的斜率分别为1.04、1.01和1.02,表明全天候输出中的LE存在轻微的高估。图10比较了全天候LE与实地数据,表明在生长高峰期(DOY 180–240)和早期及晚期生长季节(DOY 100–130和270–300)期间,LE存在低估。总体而言,全天候LE估算结果保留了LE剖面的时间动态,表明该模型在重建季节性ET趋势方面有效。
#### 4.4. 全天候ML ET与其他ET产品的比较
我们使用了2003年至2012年期间三个NE站点的所有无云样本作为训练样本,训练ML模型,然后在2020年的DOY 101至300期间生成每日ET,以进一步测试ESVEP-ML框架在每日全天候ET估算中的性能。将本研究生成的全天候ET与HRLDAS ET(Chen等,2007)、OpenET的集成ET(OpenET,2025)以及实地ET进行比较,以评估全天候ET产品的性能。如图11所示,OpenET表现最佳,具有最低的RMSE和最高的R2,这可能归因于其更高的空间分辨率(30米)。与HRLDAS ET相比,本研究的全天候ET估算结果在大多数情况下更接近实地观测,RMSE分别为0.96 mm(NE1)、1.04 mm(NE2)和0.93 mm(NE3)。全天候ET和OpenET产品均优于HRLDAS ET,后者在所有三个站点的早期生长季节(DOY 141–161)和生长高峰期(DOY 200和260)附近表现出显著的高估。
为了进一步评估本研究生成的每日ET的准确性,我们将三个NE站点的全天候观测数据分为无云和有云子集,并与实地ET进行比较。在每个站点,Noah LST推导出的ET在有云条件下表现出较低的R2,分别为0.73(NE1)、0.68(NE2)和0.70(NE3)。相应地,有云条件下的每日ET显示出较高的RMSE,分别为1.00 mm(NE1)、1.14 mm(NE2)和0.96 mm(NE3),这主要归因于生长季节初期的高估。然而,结合无云和有云条件下的ET估算能够准确捕捉生长季节的ET时间动态。
#### 4.5. 优势与局限性
本研究通过ESVEP-ML框架整合遥感和气象数据,生成了内布拉斯州的最新每日ET产品。与现有的区域和全球ET产品相比,该工作流程具有以下关键优势:
1. **混合方法的使用**:ET的计算基于物理模型(ESVEP)和机器学习算法的混合方法。Hao等(2022)表明,这种混合方法(ESVEP-RF)优于传统的物理方法。在本研究中,我们进一步扩展了ESVEP-RF方法,以生成每日ET地图,并结合季节性作物类型图和种植信息。
2. **云覆盖条件下使用Noah-LST填补MODIS-LST数据缺失**:通过使用Noah-LST填补MODIS-LST在云覆盖条件下的缺失,生成了物理能量平衡模型的参数,并分别构建了无云和有云条件下的LE估算模型。这种方法通过整合两种条件下的ML预测,实现了全天候ET估算的一致性。2020年的每日ET结果验证了该方法在农田环境中的准确性和有效性。
3. **高时间分辨率**:与每8天更新一次的MODIS ET产品不同,本研究的工作流程支持每日更新的ET产品。这种时间分辨率对于农业决策,如灌溉计划和作物监测至关重要。由于ESVEP-ML的输入(遥感和地表模型输出)每日更新,ET可以以最小的延迟进行计算。目前,由于MOD11A1 LST数据的可用性,操作延迟限制在两天内,但与MODIS ET产品相比,该方法仍具有更高的时效性。
然而,该方法仍存在一些局限性:
1. **训练样本的收集限制**:本研究的训练数据来自2003年至2012年期间三个NE站点的DOY 101至300的无云数据。因此,训练后的模型主要适用于研究区域内生长季节的农田区域。没有收集非种植期的训练样本,限制了模型在这些时期的应用。此外,如果目标像素的ET条件未在训练数据集中表示,模型可能会产生不准确的估计,如2012年NE1的LE低估。机器学习方法本身会引入一些预测偏差:ML模型倾向于高估低ET值和低估高ET值(Yang等,2016),这会增加ET估算的整体不确定性。
2. **MODIS-LST和Noah-LST的空间分辨率差异**:为了协调这两种数据集的空间分辨率,将Noah-LST重采样
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号