
-
生物通官微
陪你抓住生命科技
跳动的脉搏
机器学习重建的北极河流径流、温度与热通量数据集:填补北极水文研究空白的关键突破
【字体: 大 中 小 】 时间:2025年07月19日 来源:Scientific Data 5.8
编辑推荐:
北极河流向北极输送全球11%的淡水,但观测数据缺失严重制约了相关研究。为解决这一问题,中山大学团队利用机器学习回归方法和ERA5-Land再分析数据,构建了1950-2023年25条主要北极河流的日尺度径流、温度及热通量数据集(RADIT)。该数据集重建精度优异(径流NSE中位数0.861,温度0.906),为量化北极淡水收支、校准气候模型及评估河流对北冰洋的影响提供了高质量数据支撑,相关成果发表于《Scientific Data》。
北极——这个被称为地球"空调"的极地地区,正经历着全球最剧烈的气候变化。北极河流如同大地的血管,每年向北冰洋输送约11%的全球河川径流量,这些淡水不仅影响着海洋盐度分层和热盐环流,还携带着大量热量、养分和有机质,深刻塑造着北极的生态环境。然而,由于监测站点分布不均、观测标准不一,加之自1980年代以来水文站数量持续减少,北极河流系统长期面临"数据荒"的困境。
针对这一挑战,中山大学地理科学与工程学院(School of Geospatial Engineering and Science, Sun Yat-sen University)的Zihan Wang、Fengming Hui和Xiao Cheng研究团队在《Scientific Data》发表了一项突破性研究。他们创新性地将机器学习与再分析数据相结合,构建了首个覆盖全北极主要河流的长时间序列数据集——RADIT(Reconstructed Arctic-draining river Discharge and Temperature)。该数据集填补了1950-2023年间25条主要北极河流的日尺度径流、水温和热通量数据空白,为理解北极水文变化及其气候效应提供了关键工具。
研究团队采用了多源数据融合与机器学习建模相结合的技术路线。首先整合了ArcticGRO、GRDC等5个国际水文数据库的观测数据,筛选出25条符合标准(年均径流>100 m3/s、缺失率<60%)的北极河流。针对径流重建,设计了基于XGBoost等4种集成算法的河流特异性模型,引入递归特征消除(RFE)筛选ERA5-Land的14个环境变量作为预测因子,并创新性地采用峰值流量增强策略提升模型对春季融雪洪水的捕捉能力。对于温度重建,则建立了跨流域统一模型,结合GRWL河流宽度数据实现无观测河流的温度估算。最终通过面积比例法将站点数据转换至河口,计算热通量(HF=86400·Cp·ρ·Q·T)。
数据记录与质量控制
研究整合了25条河流1950-2023年的连续日值数据,包括站点与河口径流(m3/s)、河口水温(°C)及热通量(MJ)。通过严格的交叉验证,径流重建的NSE中位数达0.861,KGE为0.870,显著优于GloFAS全球水文模型的表现。特别对俄勒冈河等数据缺失严重的河流,重建结果成功还原了其季节动态特征。

温度重建的突破
尽管水温观测更为稀缺(仅14条河流有历史数据),统一模型仍展现出卓越的泛化能力,留一法验证的NSE中位数达0.906。模型在北美北极的迁移验证同样成功(Yukon河NSE=0.885),证明其适用于无观测流域。研究还发现,传统方法常低估春季峰值流量达10%,而机器学习校正有效改善了这一问题。
技术验证与比较
与GloFAS v4的对比显示,该重建在23/25河流中表现更优(图8)。特别对Mezen河等中等规模河流,峰值流量NSE提升达0.663。温度重建的NRMSE控制在6.4-10.6%之间,验证了方法的可靠性。
这项研究创建的RADIT数据集标志着北极水文监测的重要进步。其价值体现在三方面:首先,七十年连续日值数据使分析水文极端事件成为可能;其次,机器学习框架克服了传统水文模型在北极特殊过程(如冻土-水文耦合)中的局限性;最后,统一温度模型首次实现了全北极河流热通量的可比估算。这些突破将为北极淡水预算量化、海冰变化归因及碳循环研究提供不可或缺的基础数据。正如作者指出,未来可通过纳入更多小流域观测进一步扩展数据集,但现有成果已为理解"北极放大"效应下的陆-海-冰相互作用奠定了坚实基础。
研究也存在一定局限:未包含更小河流的贡献,且冬季冰封期水温数据仍依赖假设。但正如通讯作者Fengming Hui强调:"这是首次用机器学习系统重建全北极河流的多要素通量,数据集已开源供全球学界使用。"随着北极变暖持续加剧,这份高精度、长时间跨度的水文记录,必将成为解码北极变化密码的关键拼图。
生物通微信公众号
知名企业招聘