
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态机器学习的全球0.1°日尺度蒸散发数据集构建(1950-2022)及其在水-能-碳循环中的应用
【字体: 大 中 小 】 时间:2025年06月03日 来源:Agricultural and Forest Meteorology 5.6
编辑推荐:
本研究针对现有蒸散发(ET)产品空间分辨率低(0.25°-0.5°)、时间覆盖短(20-40年)及假设依赖性强等问题,通过融合13种多源ET数据(遥感/机器学习/陆面模式/再分析),采用LightGBM重建和AutoML融合技术,构建了全球首套0.1°日尺度长时序(1950-2022)ET数据集,验证精度显著提升(KGE=0.857),系统性纠正了湿润区低估偏差,为区域水文生态研究提供了高精度数据支撑。
蒸散发(Evapotranspiration, ET)作为陆地表面第二大水文通量,在水-能-碳耦合循环中扮演着核心角色。然而,当前全球ET产品普遍面临三大困境:空间分辨率粗糙(多数为0.25°-0.5°)、时间跨度有限(通常仅20-40年)、不同估算方法间存在显著差异。这些问题严重制约了气候变化背景下陆地生态水文过程的精确量化。尤其值得注意的是,现有产品在湿润区的系统性低估偏差可达20%-30%,且高分辨率长时序数据的缺失使得全球变绿等生态效应与ET的响应机制难以准确解析。
针对这些科学难题,南方海洋科学与工程广东省实验室(珠海)联合多家科研机构,创新性地提出了多模态机器学习融合框架。研究团队整合了13种最具代表性的ET数据源,包括GLEAM v3.6a/b、FLUXCOM、EB-ET等涵盖遥感反演、机器学习预测、陆面模型模拟和再分析数据的多源产品,构建了1950-2022年间全球首套0.1°日尺度高精度ET数据集(命名为CD12Q1)。该成果发表于《Agricultural and Forest Meteorology》,为解决全球变化研究中的基础数据瓶颈提供了突破性方案。
关键技术方法包含:1)采用LightGBM算法对13种异源ET产品进行时空一致性重建,替代传统线性插值;2)基于462个FLUXNET通量塔观测,利用AutoML技术自动优化模型架构与超参数;3)融合ERA5-land大气强迫数据与土壤属性等辅助变量,构建多维度预测因子体系;4)通过空间-时间交叉验证(K-fold=5)评估模型泛化能力。
【Evaluation of the fusion model】章节显示,新数据集验证指标显著优于现有产品:空间交叉验证的Kling-Gupta效率系数(KGE)达0.857,均方根误差(RMSE)为0.726 mm/day,较次优产品精度提升12.3%。特别在热带雨林地区,系统偏差降低达41%。
【The benefits of AutoML-assisted fusion model】部分证实,AutoML技术相比传统人工调参方法(如DNN、RF)具有三重优势:自动化流程减少专家偏差、集成学习提升模型鲁棒性、计算效率适合全球尺度应用。实验表明,AutoML使不同植被类型ET预测的R2平均提高0.08-0.15。
研究结论指出,该数据集首次实现了三大突破:1)时空分辨率提升至0.1°/daily,可捕捉农田尺度的蒸散发动态;2)覆盖73年超长时序,支持工业革命以来ET演变分析;3)采用非线性机器学习重建,克服了传统融合方法的空间信息损失问题。讨论部分强调,该成果为量化全球变化背景下陆地水-能-碳通量提供了基准数据,尤其对极端气候事件的水文响应(如2022年欧洲热浪期间ET异常)具有独特解析能力。数据集已通过Harvard Dataverse等平台公开共享,支撑了包括IPCC评估报告在内的多项重大研究。
生物通微信公众号
知名企业招聘