
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于变系数自回归对抗网络(VCAAN)的PM2.5时空数据插补方法研究
【字体: 大 中 小 】 时间:2025年06月26日 来源:Environmental Modelling & Software 4.8
编辑推荐:
针对PM2.5监测数据因设备故障导致的缺失问题,北京交通大学团队提出变系数自回归对抗网络(VCAAN)框架。该方法通过变系数自回归模型(VCA)动态捕捉时空依赖性,结合卷积判别网络(CDN)进行对抗训练,引入动态损失加权机制,在北京市PM2.5数据实验中展现出高缺失率下的优越性能,为空气质量管理提供新工具。
华北平原的雾霾问题长期困扰着城市居民,PM2.5作为"呼吸杀手"能穿透肺泡携带毒素,其监测数据却常因设备故障出现大规模缺失。传统插补方法如多重插补(MICE)和K近邻(KNNI)难以应对复杂的时空关联,而深度学习模型如生成对抗网络(GAN)又受限于缺失机制假设。更棘手的是,现实场景中常见的序列缺失(MIS)和区块缺失(MIB)模式,使得超过33%的高缺失率数据成为分析盲区。
北京交通大学团队在《Environmental Modelling》发表的研究中,创新性地融合统计学与深度学习,开发出变系数自回归对抗网络(VCAAN)。该方法通过B样条逼近时变系数,将向量自回归(VAR)参数从O(p2)降至O(p),结合卷积判别网络(CDN)的时空特征提取能力,在动态对抗训练中实现精准插补。研究采用北京市35个监测站2014-2019年的PM2.5数据,包含标准污染物和气象指标,通过Pygrinder工具生成不同缺失模式的测试集。
数据
研究选取京津冀复杂地形区的监测数据,该区域因城市热岛效应和人为排放呈现显著时空异质性。数据预处理采用滑动窗口标准化,构建包含历史24小时、未来12小时及相邻站点信息的时空张量。
实验设置
在RTX 3050 GPU平台上对比7种基线模型,包括迭代奇异值分解(SVD)和门控循环单元(GRUD)等。评估指标采用均方根误差(RMSE)和动态时间规整(DTW),缺失率设置从10%至70%。VCAAN的超参数通过贝叶斯优化确定,CDN采用3层空洞卷积捕捉多尺度特征。
讨论
VCAAN在70%高缺失率下RMSE仍保持0.89优势,其变系数模块通过B样条基函数将计算复杂度降低62%。动态对抗权重机制有效防止CDN过早收敛,使生成器与判别器的损失比稳定在1:1.2区间。与注意力网络(AIA-Net)相比,对MIB模式的插补精度提升达19.7%。
该研究突破传统方法对完全随机缺失(MCAR)的依赖,首创将时间序列分析与时变系数建模结合,为环境健康风险评估提供可靠数据支撑。中央高校基本科研业务费(2682021ZTPY078)资助的这项成果,其开源代码已实现"即插即用"的工程化部署,未来可扩展至臭氧等复合污染物的监测应用。研究局限性在于对跨区域传输的建模尚未引入风场特征,这将是团队下一步重点突破方向。
生物通微信公众号
知名企业招聘