
-
生物通官微
陪你抓住生命科技
跳动的脉搏
综述:气候时间序列缺失数据插补研究综述
【字体: 大 中 小 】 时间:2025年06月21日 来源:MethodsX 1.7
编辑推荐:
这篇综述系统回顾了近十年气候时间序列缺失数据插补方法,重点对比了传统统计(如均值插补、多重线性回归MLR)、机器学习(如随机森林RF、K近邻KNN)和深度学习(如生成对抗网络GAN、长短期记忆网络LSTM)技术的优劣。文章揭示了温度、降水和湿度是最常研究的变量,亚洲和欧洲是主要研究区域,并指出卫星数据插补和气候指数重建是未来重要方向。
全球气候变化加剧使得气候监测数据完整性至关重要,但气象站基础设施不足常导致时间序列出现缺失。联合国气候变化框架公约(UNFCCC)和可持续发展目标(SDGs)均强调气候数据完整性的战略意义。本文综述了2015年以来的气候数据插补技术,涵盖统计方法、机器学习与深度学习三大类,填补了现有综述多聚焦单一气候变量的空白。
通过Dimensions、Scopus等数据库系统检索,筛选标准包括2015年后英文文献,最终纳入60篇研究。关键词组合为"Time series" AND ("weather" OR "Rainfall") AND ("Missing Data" OR "Imputation")。数据预处理剔除重复文献后,按研究区域、方法类型、气候变量等特征分类分析。
亚洲(马来西亚、中国)和欧洲(意大利)贡献了最多研究,占比达67%。巴西和澳大利亚是美洲与大洋洲的主要研究国家。美国仅1篇研究,与其完善的气象监测网络(如NOAA)形成反差。墨西哥等中美洲国家研究空白突出,与其气象站衰减现状形成矛盾。
温度(29篇)、降水(28篇)和相对湿度(15篇)是最常分析的变量,与WMO基础观测设备(温度计、雨量计)的普及度一致。93%研究使用地面监测站数据,仅7%涉及卫星数据(如MODIS LST),后者将云层视作数据缺失。
均值插补、线性回归和克里金法(Kriging)是使用最广的传统技术。在巴西圣保罗的案例中,加权预测均值匹配(midastouch)的归一化均方根误差(NRMSE)比普通均值降低23%。马来西亚学者开发的多元正弦函数分解(MSFD)对月均温度序列的插补误差(RMSE≤2.21)显著优于传统方法,尤其擅长处理周期性数据。
但传统方法存在明显局限:均值法会扭曲统计分布,克里金法在海拔>2000米站点误差增大74%,而主成分分析(PCA)在变量相关性低时效果骤降。计算复杂度分级显示:简单插补为O(1),空间插补(如反距离权重IDW)达O(n2),而马尔可夫链蒙特卡洛(MCMC)等迭代方法可达O(2n)。
随机森林(RF)和missForest表现抢眼。在加纳河流域,missForest的Kolmogorov-Smirnov统计量比KNN提升40%,能准确估计极端降雨。中国汉江流域采用的MICE-RF(多重插补结合RF)在蒸发量插补中R2达0.92,但计算耗时比线性回归高8倍。
梯度提升(GB)在德国气象数据中展现优势:温度插补的MAE仅0.5°C,且训练速度比神经网络快3倍。不过,XGBoost-DE等优化算法虽将太阳辐射插补误差降低15%,但参数调优需额外计算资源。
生成对抗网络(GAN)在意大利气温插补中RMSE低至1.2,但葡萄牙研究发现其对风向数据不敏感。双向LSTM(BiLSTM)处理中国高频温度数据时,即使60天连续缺失仍保持KGE>0.85。Transformer模型在GRACE卫星数据填补中表现惊艳,11个月空缺的NSE维持在0.91,但需要GPU集群支持。
值得注意的是,矩阵补全(MC)在比利时土壤湿度数据中击败了所有深度学习方法,说明简单场景下"轻量级"方法仍具竞争力。LIME-RNN虽能同步预测与插补,但训练耗时是普通RNN的3倍。
温度/降水插补中,机器学习(如RF)和深度学习(如GAN)在复杂场景优势显著,但简单统计方法在短时缺失仍具性价比。地理分布不均和技术壁垒(如卫星数据处理)凸显研究机遇。未来需开发自适应混合框架,并加强气象基础设施薄弱地区的研究合作。
生物通微信公众号
知名企业招聘