基于数据驱动回归方法的层化溶解氧动态建模

《Environmental and Ecological Statistics》:Modeling the dynamic of stratified dissolved oxygen using a data-driven regression approach

【字体: 时间:2026年06月09日 来源:Environmental and Ecological Statistics 1.8

编辑推荐:

  溶解氧(Dissolved Oxygen, DO)水平的监测对于有效的水资源管理和保护策略至关重要。然而,利用原位传感器监测层化溶解氧的水质需要大量的时间和运营成本。数据驱动方法,特别是机器学习(Machine Learning, ML)模型,为预测水生系统中

  
溶解氧(Dissolved Oxygen, DO)水平的监测对于有效的水资源管理和保护策略至关重要。然而,利用原位传感器监测层化溶解氧的水质需要大量的时间和运营成本。数据驱动方法,特别是机器学习(Machine Learning, ML)模型,为预测水生系统中的溶解氧动态提供了一种有前景且具有成本效益的替代方案。本研究利用单目标回归(Single-Target Regression, STR)和多目标回归(Multiple-Target Regression, MTR)方法,为Maninjau湖开发了层化溶解氧的数据驱动预测模型。结果表明,利用长期时间序列数据的STR方法优于依赖瞬时同步观测记录的MTR方法。在STR框架中,近表层溶解氧由多层水温剖面预测;而在MTR框架中,多层深度的层化溶解氧由一组多层水质变量估算。两种方法均评估了五种回归模型:多元线性回归(Multilinear)、多项式回归(Polynomial)、支持向量回归(Support Vector, SV)、随机森林(Random Forest, RF)和极端梯度提升回归(Extreme Gradient-Boosting, XGB)。为应对预测变量的高维度问题,研究人员对每个模型应用了递归特征约减(Recursive Feature Reduction)。结果表明,垂直溶解氧结构可有效地由上层(0 m和2 m深度)和下层(21 m深度)表示。然而,MTR方法在单一预测目标上表现出可靠性能,但无法充分泛化至所有目标深度。验证表明,基于树的模型——随机森林和极端梯度提升——在STR-MTR中均能很好地预测近表层溶解氧。在MTR中,多元线性回归对2 m处溶解氧的预测最佳,而支持向量回归(Support Vector Regression, SVR)对表层溶解氧的预测最佳。所有模型均识别出2 m处水温为两种方法中的主要驱动因素,叶绿素荧光(Chlorophyll Fluorescence)和盐度(Salinity)在MTR近表层也具有重要性。未来研究应聚焦这些因素之间的时空交互作用,以加深对溶解氧动态的理解,这对水生生态系统的健康至关重要。
本研究旨在开发与评估印度尼西亚苏门答腊岛Maninjau湖层化溶解氧的预测框架,并识别影响层化溶解氧的关键环境因素,以改善对该湖泊垂向氧动态的解释性。该湖泊自2013年以来持续遭受有害藻华和大规模鱼类死亡事件的困扰,主要归因于集约化浮动网箱养殖活动,亟需高精度预测工具以实现主动式水质管理。

当前研究存在以下问题:全球范围内的单目标回归(STR)和多目标回归(MTR)方法在环境建模中虽已取得成功,但其在印度尼西亚超富营养化系统中的适用性尚未得到探索;利用原位传感器监测层化溶解氧需要大量时间和运营成本;溶解氧预测具有非线性和非光滑特性,且存在模态分解问题,同时需考虑对各种水质参数响应的过拟合与欠拟合风险。

为应对上述挑战,研究人员开展了以下研究:首先,基于两个不同数据集构建了两种回归策略。(1)STR方法:利用2017年3月至6月期间每10分钟采集的 temporal 数据集,以近表层(约2 m深度)溶解氧为目标变量,多层水温(0.5 m至56 m)为预测变量;(2)MTR方法:基于2018年3月采集的 spatial 数据集,在53个采样点的61个深度处获取数据,以多层深度溶解氧为多重目标,9个层化水质变量(水温、电导率、浊度、盐度、叶绿素荧光等)作为预测因子。两种方法均评估了五种回归模型:多元线性回归(MLR)、多项式回归(POLY)、支持向量回归(SVR)、随机森林(RF)和极端梯度提升(XGB)。针对MTR方法中预测变量的高维度问题,研究人员实施了两阶段递归回归框架:第一阶段利用所有选定输入特征构建回归模型,计算置换特征重要性(Permutation Feature Importance, PFI)以识别最具影响力的预测因子;第二阶段仅基于排名前五的特征重新训练模型。为增强性能估计的稳健性,采用1000次迭代的自助法(Bootstrapping)技术计算决定系数(R2)和平均绝对误差(Mean Absolute Error, MAE)的95%置信区间。数据预处理包括异常值检测、数据清洗和Min-Max标准化;数据分割采用基于变分分析的结构化方法—— temporal 数据集按85:15比例进行时间顺序分割, spatial 数据集采用Spatial GroupKFold方法确保地理独立性。

研究得出以下主要结论:STR方法凭借长期时间数据集展现出优于MTR方法的预测性能;基于树的模型(RF和XGB)在预测近表层溶解氧方面表现最佳;2 m深度水温是所有模型中识别出的主要驱动因素;垂直溶解氧结构可有效由上层(0 m和2 m)和下层(21 m)表征。该研究发表于《Environmental and Ecological Statistics》期刊,为超富营养化湖泊的溶解氧预测提供了重要的方法学参考。

研究人员采用的关键技术方法包括:变分分析(Variogram Analysis)用于识别 temporal 和 spatial 数据的自相关结构;Pearson相关性分析进行初始特征选择(阈值0.8);置换特征重要性评估用于量化特征贡献度;递归特征约减以降低高维预测变量;自助法重采样进行模型性能稳健性评估;五种回归模型比较(MLR、POLY、SVR、RF、XGB);时间顺序分割与空间分组交叉验证的数据分割策略。样本队列来源于Maninjau湖2017年 temporal 原位监测数据(Koto Malintang站位,经度100.207917°,纬度-0.281642°)和2018年 spatial CTD剖面数据(53个位置,61个深度)。

**近表层溶解氧预测**

输入特征方面,基于21个不同深度的水温数据,通过相关性分析识别出三个主要热分层:表层增温层(epilimnion,t0-t2)、中间温跃层(metalimnion,t3-t16)和深层变温层(hypolimnion,t21-t28)。以0.8为相关性阈值筛选后,保留12个特征覆盖全部三层,其中温跃层仅由t3、t15和t16代表其上下边界。

STR预测结果表明,决策树模型RF和XGB的预测精度优于SVR、MLR和多项式回归。RF和XGB模型达到最高R2分数0.61和最低误差约2 mg/l,而多项式回归表现最差(R2=0.42)。时间序列分析显示,所有模型均能追踪系统的昼夜周期,但MLR和POLY模型波动性较大,RF和XGB提供更稳定的趋势且具有显著更窄的95%置信区间。

特征重要性分析显示,2 m深度水温(t1)是所有模型中控制近表层溶解氧的首要因素,其次为4 m深度水温(t2);深层水温对近表层溶解氧影响极小。

**层化溶解氧预测**

输入-输出特征方面,通过Pearson相关性分析将610个输入特征(10×61)缩减至71个,目标变量缩减至3个(0 m、2 m和21 m深度溶解氧),代表暖层和冷层。剩余输入特征涵盖五类水质参数:上层水温和电导率(EC25)、中深层浊度、以及从上层至深层的盐度和叶绿素荧光。

MTR预测结果表明,由于数据集稀疏性和高维度特征,各模型性能差异难以区分,但2 m深度溶解氧(黑点)通常最接近1:1参考线,表明相对更高的预测精度。详细评估显示:SVR在0 m和2 m表现良好,MLR、RF和XGB仅在2 m达到可接受结果,所有模型在21 m深度均难以预测溶解氧水平。MLR对2 m深度溶解氧预测具有最高决定系数和最低预测误差;SVR在表层(0 m)展现出令人满意的预测技能。空间分布图显示,模型能较好地再现0 m和2 m的地理格局(北部高溶解氧热点和南部低溶解氧区),但21 m深度的空间变异性被所有模型 poorly captured。

特征重要性分析揭示,与STR方法类似,近表层溶解氧受局部水温影响。然而,经典回归模型(MLR、POLY、SVR)在识别最重要特征方面存在不一致性:MLR表明2 m深度叶绿素荧光是最强预测因子,而POLY和SVR则强调表层盐度的重要性。相比之下,基于树的模型RF和XGB一致揭示1 m深度水温是决定溶解氧波动的最关键因素。这一差异归因于热分层动态和逆温层(Inverse Temperature Layer, ITL)的存在,其使得1 m深度水温比表层温度更能反映影响溶解氧的整体热状况。

**讨论**

研究人员指出,2017年至2018年间观察到变温层(hypolimnion)从约40 m上升至21 m的显著浅化趋势,反映了水质恶化的令人担忧态势,这与周围农业径流增加的营养负荷有关,并可能加剧湖泊生态挑战和大规模鱼类死亡。确定最佳分层深度对实施有效管理策略至关重要。

研究比较了STR与MTR框架的性能差异:STR利用大型时间数据集对特定目标的专注提供了更优结果,而MTR由于多重输出固有的复杂性和高维输入特征,导致模型难以捕捉目标间的统计依赖性。虽然MTR在Attemps to model these dependencies,但未能成功捕捉预测变量间的复杂关系,导致部分目标的次优性能。 tree-based模型在STR中的优势源于其处理非线性模式的能力和大数据集的稳健开发,但在MTR中仅对单一输出(2 m溶解氧)表现满意。SVR展现出更大灵活性,能够预测0 m和2 m的溶解氧。

研究人员提出了未来研究方向:建立包含多深度和多位置时间测量的更稳健预测模型;整合气象变量、完整水质变量集以及与入流相关的人为活动因素;开发两阶段建模框架,在首要阶段捕捉物理驱动因子的全局函数关系,在第二阶段作为时空依赖性的局部校正,以优化预测性能和模型可解释性。

**研究结论翻译**

本研究调查了以不同深度水温为输入特征预测近表层溶解氧的问题。对层化水温(特别是表水层、温跃层和变温层)进行相关性分析,并用于简化STR方法中的特征选择。在五种评估的回归模型中,随机森林回归和XGB在预测近表层溶解氧水平方面达到最高精度,证明了基于树的模型在捕捉水质关系方面的优越性能。模型预测与观测值的偏差主要出现在低值和高值的高变异性时段,而昼夜周期被良好捕捉。2 m深度水温对近表层溶解氧水平有显著影响,而更深层的温度影响极小。

MTR方法同时预测多个响应变量的能力有限。在本研究中,MLR、RF和XGB模型仅能对2 m深度的溶解氧提供可靠预测,而SVR模型对0 m和2 m深度的溶解氧产生了稳健预测。总体而言,所有模型均表现出次优性能,且难以预测深层(21 m)的溶解氧。因此,跨多个深度的直接溶解氧预测仍然具有挑战性,反映了所采用的回归技术在应用于复杂高维数据集时的固有局限性。建模结果进一步表明,除水温外,近表层叶绿素荧光和盐度也对溶解氧产生实质性影响,特别是在温暖的表层。这些发现表明STR方法的性能优于MTR方法,这可能是因为水生动态主要由局部过程主导,因此需要明确的时间信息。为提高预测精度和计算效率,未来研究应开发有选择性地纳入关键环境变量和时空观测的综合框架。特别是,将回归模型与时空残差建模相结合,可以在保持模型科学可解释性和泛化能力的同时优化性能。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号