一种结合EMD-DFA、LSTM和MOOTLBO的混合模型,用于精确预测水质指数
《Journal of Water Process Engineering》:A hybrid EMD-DFA–LSTM–MOOTLBO model for accurate water quality index prediction
【字体:
大
中
小
】
时间:2025年08月21日
来源:Journal of Water Process Engineering 6.7
编辑推荐:
本研究提出融合EMD-DFA信号处理、MOOTLBO多目标优化和LSTM的混合深度学习模型,用于高效预测水质量指数(WQI)。实验表明,该模型在伊利诺伊州伊利诺伊河8项水质参数数据集上显著优于传统LSTM模型,相关系数达0.980,RMSE为16.965,NSE为0.948,准确率提升近190%,有效解决了复杂水质数据中的噪声、特征冗余和参数调优问题。
在水资源管理领域,水质量指数(Water Quality Index, WQI)作为评估水质的一种量化方法,已经广泛应用。WQI通过整合多种化学浓度测量,提供了一种全面的水质状况评价体系。然而,随着研究范围的扩大,传统的WQI计算方法在处理大规模样本时表现出显著的计算效率低下问题。为了克服这一局限,研究者们开始探索结合机器学习和深度学习的方法,以提高预测精度和计算效率。在这一背景下,本研究提出了一种新型的混合深度学习模型,该模型不仅提升了WQI的计算效率,还显著增强了预测的准确性。
WQI的计算通常包括参数选择、数据标准化和聚合方法的应用,以得出最终的指数值。参数的选择依据包括数据的可获得性、专家判断以及环境意义或特定用途(如饮用水、地表水、地下水、废水等)。在这一过程中,权重方法被广泛采用,其中参数根据其对水质的相对重要性进行赋权。通常,对水质影响较大的参数会被赋予更高的权重,而影响较小的参数则权重较低。这种方法虽然直观,但在处理复杂数据集时存在局限性,无法准确模拟多参数之间的复杂关系。此外,传统方法的计算过程较为繁琐,需要测量多个参数,如相对权重和基于参数的质量评估器。
为了应对这些挑战,机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL)方法被引入,以更高效地建模复杂关系并计算结果。近年来,许多研究使用了ML技术进行WQI预测。例如,Adaptive Neuro-Fuzzy Inference System(ANFIS)、Artificial Neural Networks(ANN)、M5 Model Trees(MT)、Multivariate Adaptive Regression Splines(MARS)、Genetic Programming(GP)、Gradient Boosting(GB)和K-Nearest Neighbors(KNN)等模型已被用于WQI预测。其中,Asadollah等人(2021)在预测香港的Lam Tsuen河的WQI时,使用了Extra Tree Regression(ETR)、Support Vector Regression(SVR)和Decision Tree Regression(DTR)模型,并采用了包括Biochemical Oxygen Demand(BOD)、Chemical Oxygen Demand(COD)、Dissolved Oxygen(DO)、Electrical Conductivity(EC)、Nitrate-Nitrogen(NO3-N)、Nitrite-Nitrogen(NO2-N)、Phosphate(PO?3?)、pH、Temperature(T)和Turbidity(TUR)在内的多个参数。他们的研究表明,ETR模型在预测性能上优于其他模型。
与此同时,Yankun Hu等人(2024)在预测中国Liao River Basin的WQI时,采用了混合Support Vector Regression(SVR)和Random Forest Regression(RFR)模型,结果显示混合模型显著提高了WQI的预测精度。然而,传统的ML模型如SVR和ETR在处理复杂非线性关系和高维数据依赖性方面存在一定的局限性。这些模型通常依赖于人工特征的提取,限制了其在处理无结构数据(如图像或具有复杂模式的时间序列)时的泛化能力。相比之下,深度学习模型,特别是神经网络,能够直接从原始数据中学习丰富的表示,使其在建模复杂模式方面更具优势。此外,LSTM(Long Short-Term Memory)等递归深度学习算法能够捕捉序列观测之间的长期时间依赖关系,并基于时间序列数据进行预测。
LSTM模型在WQI预测中的应用已被多个研究验证。例如,Kim等人(2024)比较了SVR、RF、ANN和LSTM模型在WQI估计中的表现,并发现LSTM模型优于其他模型。Niknam等人(2024)的研究也确认了LSTM模型在伊朗Dez河的WQI预测中的优越性,显示其在预测性能上优于ARIMA模型。尽管LSTM模型在预测方面表现出色,但其在处理噪声数据、强非线性模式、非平稳趋势或快速变化的水质参数时仍然面临挑战。为了解决噪声问题,信号预处理技术如Empirical Mode Decomposition(EMD)已被证明是有效的。EMD通过将复杂信号分解为更简单、更易解释的分量,提升了DL和ML模型的性能。此外,许多超参数涉及DL模型,这些参数直接影响模型的预测或估计性能,包括学习率、每层神经元数量、层数、批量大小、训练轮数(epochs)以及正则化参数。优化这些超参数通常需要试错法或使用智能算法。
在这一背景下,元启发式优化算法被引入,以智能地探索解空间,找到最优的超参数配置。这些算法能够有效处理复杂优化问题,如特征选择和参数调优。此外,特征选择对于提升模型的效率和准确性同样重要。选择最合适的特征可以减少计算时间并提高模型的效率,同时降低模型复杂度并增强其可解释性。然而,由于水质参数数量众多,且这些参数之间存在复杂的相互依赖关系,特征选择可能面临巨大挑战。
传统的特征选择方法如过滤法(Filter-based)虽然计算简单,但无法考虑非线性特征交互,也无法与学习模型的架构相结合。相比之下,包装法(Wrapper-based)通过将学习模型作为评估过程的一部分,能够克服这些限制,从而更有效地识别非线性特征交互,提高最终模型的准确性。元启发式优化方法是包装法中最为常用的一种,能够有效找到最优且最小的特征集。多目标优化方法被用于解决预测精度最大化与特征数量最小化之间的固有权衡,使研究人员能够获得帕累托最优解,从而在模型复杂度和预测精度之间取得平衡,促进科学决策。
在本研究中,我们采用多目标优化算法MOOTLBO(Multi-Objective Observer–Teacher–Learner-Based Optimization)进行特征选择和LSTM模型参数调优。MOOTLBO算法能够有效平衡计算复杂度最小化与预测精度最大化之间的关系,使模型在保持高性能的同时,减少不必要的输入变量。此外,MOOTLBO算法的简单框架使得它在处理复杂优化问题时具有更高的灵活性和适应性,不需要复杂的参数配置过程,也不需要专门的参数调整。
为了进一步提高WQI预测的准确性,本研究提出了一种集成信号预处理方法(EMD-DFA)、特征选择和参数调优的混合深度学习模型。该模型结合了EMD和DFA的信号处理技术,用于去除噪声并保留数据的内在特征。EMD通过迭代提取本征模态函数(Intrinsic Mode Functions, IMFs),这些函数的形状和时间支持由信号本身决定,能够捕捉局部振荡行为和缓慢趋势,而不假设数据的平稳性或线性。相比之下,传统的去噪技术如小波变换在某些情况下可能无法有效保留数据的细微变化,特别是在选择不匹配的母小波、阈值或窗口时。DFA则通过将累计信号分割成窗口,对每个窗口进行低阶多项式局部去趋势处理,并量化根均方波动随窗口大小的变化情况,从而能够自动适应未知、时间变化的漂移趋势,避免固定核平滑器、样条拟合或频域滤波器带来的干扰。这种基于窗口的处理方式能够保留多个时间尺度上的真实相关结构,防止局部趋势的过拟合或欠拟合,使DFA在重构随时间演化的信号方面尤为有效。
本研究的核心目标是开发一种优化的混合深度学习模型,以克服传统深度学习算法的局限性,同时提供准确且计算高效的WQI预测。为此,我们采用了集成信号预处理方法(EMD-DFA)、多目标优化算法(MOOTLBO)和LSTM模型。数据方面,我们使用了美国伊利诺伊州伊利诺伊河从2014年到2025年的八个水质参数,包括叶绿素、藻蓝蛋白、浊度、温度、电导率、溶解氧、pH和硝酸盐。通过比较四种模型——LSTM、EMD-LSTM(噪声过滤)、MOOTLBO-LSTM(优化特征选择和参数调优)以及提出的EMD-DFA-MOOTLBO-LSTM混合模型——的预测性能和误差分布,我们发现提出的混合模型在预测准确性方面显著优于其他模型。该模型的预测相关系数(Correlation Coefficient, CC)达到0.980,误差值(RMSE = 16.965,PBIS = ?4.353)最低,Nash-Sutcliffe效率指数(NSE = 0.948)最高。这一结果表明,提出的混合模型在预测WQI方面比经典LSTM模型提升了近190%的准确性。
本研究提出的混合模型不仅提升了WQI预测的效率和准确性,还为水资源管理领域提供了一种新的视角。通过引入一种可靠且高效的方法,该模型能够更好地理解和管理水质评估与管理策略。在实际应用中,这种混合模型能够帮助管理者和政策制定者更有效地评估水质状况,并实施必要的纠正措施。此外,该模型在处理非平稳、非线性水质数据时表现出色,能够保留数据的全局时间模式和局部振荡行为,提高预测的可靠性。
在方法上,本研究采用了一种系统化的流程,包括数据预处理、特征选择、参数调优以及模型开发。首先,我们对数据进行了预处理,使用EMD-DFA技术去除噪声,保留数据的内在特征。接着,我们通过MOOTLBO算法进行特征选择和参数调优,以优化模型的性能。最后,我们开发了四种模型,并比较了它们的预测性能和误差分布。结果表明,提出的混合模型在预测精度和计算效率方面均优于其他模型。
本研究的意义在于,它为WQI预测提供了一种新的、高效的解决方案,能够克服传统方法在处理大规模样本时的计算效率低下问题。此外,该模型在处理复杂非线性数据时表现出色,能够保留数据的内在特征,提高预测的准确性。通过将信号预处理、特征选择和参数调优相结合,该模型不仅提升了WQI预测的性能,还为水资源管理提供了更可靠的工具。
在应用层面,本研究的成果可以推广到其他类似的研究领域,如环境监测、污染控制和水资源管理。通过采用混合深度学习模型,研究人员可以更有效地处理复杂数据,提高预测的准确性,并减少计算时间。此外,该模型还可以为其他领域的数据处理和预测提供参考,如气象预测、经济分析和生物医学研究。
本研究还强调了多目标优化算法在特征选择和参数调优中的重要性。通过MOOTLBO算法,研究人员能够找到最优的特征集和参数配置,从而在模型复杂度和预测精度之间取得平衡。这种平衡对于科学决策至关重要,因为它能够帮助研究人员更全面地理解和评估数据,从而制定更有效的管理策略。
在实际操作中,本研究的混合模型能够有效地处理噪声数据、强非线性模式和非平稳趋势,同时保留数据的全局时间模式和局部振荡行为。这种能力使得该模型在处理复杂水质数据时具有更高的灵活性和适应性,能够满足不同研究需求。此外,该模型的高效性使其在实际应用中具有更高的可行性,能够减少计算资源的消耗,提高预测的实时性。
通过本研究的探索,我们发现混合深度学习模型在WQI预测中具有显著的优势。它不仅提升了预测的准确性,还提高了计算效率,使得研究人员能够在更短的时间内完成预测任务。此外,该模型的可靠性使其在实际应用中具有更高的可行性,能够为水资源管理提供更科学的决策支持。
在总结方面,本研究提出了一种新型的混合深度学习模型,用于准确预测WQI。该模型结合了信号预处理技术(EMD-DFA)和多目标优化算法(MOOTLBO),能够有效去除噪声、优化特征选择和参数调优。通过比较四种模型的预测性能和误差分布,我们发现提出的混合模型在预测精度和计算效率方面均优于其他模型。该模型的预测相关系数达到0.980,误差值最低,Nash-Sutcliffe效率指数最高。这一结果表明,提出的混合模型在预测WQI方面比经典LSTM模型提升了近190%的准确性。
本研究的成果不仅为WQI预测提供了新的解决方案,还为水资源管理领域提供了一种新的视角。通过引入一种可靠且高效的方法,该模型能够更好地理解和管理水质评估与管理策略。此外,该模型在处理复杂非线性数据时表现出色,能够保留数据的内在特征,提高预测的准确性。通过将信号预处理、特征选择和参数调优相结合,该模型不仅提升了WQI预测的性能,还为其他领域的数据处理和预测提供了参考。
本研究的实施为未来的水资源管理研究提供了重要的启示。通过采用混合深度学习模型,研究人员可以更有效地处理复杂数据,提高预测的准确性,并减少计算时间。此外,该模型的高效性使其在实际应用中具有更高的可行性,能够为水资源管理提供更科学的决策支持。通过本研究的探索,我们希望为水资源管理领域的发展做出贡献,并为其他类似的研究提供参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号