编辑推荐:
在河流生态研究中,高坝下游总溶解气体(TDG)过饱和问题突出,影响水质与鱼类生存。研究人员开展 TDG 浓度预测研究,运用多种模型对比分析。结果显示,坝溢流量影响最大,GSFST - BiLSTM 模型预测精度最高。该研究为 TDG 预测提供新框架,助力水生态保护。
在河流生态系统的研究中,高坝下游总溶解气体(Total Dissolved Gas,TDG)过饱和现象一直是个令人头疼的问题。它不仅是衡量水质的关键指标,还与水生生物的生存状况息息相关。大量的研究发现,高坝的泄流是导致 TDG 过饱和的主要原因之一。当 TDG 过饱和时,会引发鱼类的气体泡创伤(Gas Bubble Trauma,GBT),甚至造成鱼类死亡,严重破坏河流生态平衡。
目前,对于 TDG 的研究存在诸多困境。一方面,现有的 TDG 数据在地理分布上很不均衡,主要集中在美国和中国,这使得全球范围内对 TDG 的准确预测变得困难重重。另一方面,传统的经验模型由于其线性结构的限制,预测准确性较低;而数值和数学模型则需要大量的校准数据,在不同地区的适用性较差。因此,寻找一种准确、可靠且具有广泛适用性的 TDG 预测方法迫在眉睫。
在这样的背景下,来自国外的研究人员针对这一难题展开了深入研究。他们旨在开发出一种高效的模型,能够精准预测 TDG 浓度,为河流生态保护和水资源管理提供有力支持。最终,研究人员取得了一系列重要成果,相关论文发表在《Ecological Informatics》上。
研究人员采用了多种关键技术方法来开展此项研究。首先,他们运用贪心逐步特征选择技术(Greedy Stepwise Feature Selection Technique,GSFST),从众多潜在变量中筛选出最相关的特征,确定最优输入组合。其次,开发并测试了多种模型,包括长短期记忆(Long Short-Term Memory,LSTM)、双向长短期记忆(Bidirectional Long Short-Term Memory,BiLSTM)、门控循环单元(Gated Recurrent Unit,GRU)等深度学习模型,以及交替模型树(Alternating Model Tree,AMT)结合迭代绝对误差回归(Iterative Absolute Error Regression,IAER)和迭代分类器优化器(Iterative Classifier Optimizer,ICO)的混合机器学习模型。数据方面,选取了美国哥伦比亚河和斯内克河流域的两个监测站数据,其中一个站的数据用于模型训练和测试,另一个站的数据用于验证模型的泛化能力 。
下面来看具体的研究结果:
- 输入变量有效性和特征选择:通过分析输入和输出变量之间的相关性,发现坝溢流量(SD)在两个监测站对 TDG 预测的影响最大。在 USGS 12472800 站,影响程度依次为 SD、流量(Q)、传感器深度(H)、水温(Tw)、大气压力(BP);在 USGS 13353000 站,顺序为 SD、Q、H、BP、Tw。基于 GSFST 结果,确定 Tw、BP、SD 和 H 为最优输入组合,Q 虽与 TDG 相关性强,但对预测结果无显著影响,未纳入建模。
- 模型性能评价:在测试阶段(使用 USGS 12472800 站数据),通过多种方式评估模型性能。从散点图来看,GSFST - BiLSTM 模型预测能力最强,R2值达 0.95;小提琴盒图显示,该模型在整体形状和中值上与实测数据最接近;其不确定性系数(U95%)最低,为 5.2%,定量误差指标也表明它的预测性能最佳。Friedman 和 Wilcoxon signed-rank 检验证实各模型性能差异显著。在验证阶段(使用 USGS 13353000 站数据),GSFST - BiLSTM 和 GSFST - LSTM 模型泛化能力相似且预测性能优越,R2值均为 0.90 。小提琴盒图显示,GSFST - BiLSTM 模型在整体形状和四分位数间距(IQR)上与实测数据匹配度最高,GSFST - LSTM 模型在中值上与实测值最接近。GSFST - LSTM 模型不确定性系数最低,为 6.96。定量误差指标显示,GSFST - LSTM 模型预测性能最好,各模型在验证阶段均表现良好(R2>0.70),且 Friedman 和 Wilcoxon signed-rank 检验再次证实模型性能差异显著。
研究结论和讨论部分意义重大。研究表明,所使用的近实时、每小时分辨率的数据质量较高,为模型的良好表现提供了基础。GSFST 方法筛选出的输入变量合理,有助于提高模型的准确性和可靠性。深度学习模型在整体性能上优于集成树模型,这得益于其对大数据的适应性、自动提取特征的能力、灵活的架构以及端到端的处理方式。然而,深度学习模型在捕捉数据的细微波动方面存在不足,而 GSFST - IAER - AMT 模型在这方面表现更好。与以往研究相比,该研究采用新的模型评估方式,用不同监测站数据验证模型泛化能力,且开发的模型性能更优。但研究也存在局限性,如超参数选择依赖试错法,数据分割比例可进一步探索,数据的时空局限性影响模型泛化,未来可通过整合多站多区域数据、运用可解释人工智能技术等方式改进。
总的来说,该研究为全球范围内 TDG 浓度的准确预测提供了新的思路和方法,其模型的泛化能力也为可持续水资源管理和环境保护提供了有力工具,对推动相关领域的发展具有重要意义。