综述:淡水生态系统中有害藻华预测技术的进步
《Environmental Reviews》:Advances in forecasting of harmful algal blooms in freshwater ecosystems
【字体:
大
中
小
】
时间:2025年11月03日
来源:Environmental Reviews 5.1
编辑推荐:
有害藻华(HABs)预测方法经历了从早期统计模型到深度学习与多模型整合的演进,本文系统回顾了其发展历程。早期采用回归分析和时间序列分析,但受限于线性假设和单一变量。2000年后,人工神经网络(ANN)、随机森林(RF)和集成算法(如遗传算法结合支持向量机)逐步应用,提升了非线性关系建模能力。2010年代,卷积神经网络(CNN)和长短期记忆网络(LSTM)等深度学习技术因处理高维遥感数据和非线性动态而成为主流,同时结合环境流体动力学模型增强时空预测精度。当前趋势包括多模型集成、实时数据融合及不确定性量化,以应对气候变化和生态异质性挑战。
随着全球富营养化现象的加速发展,水生科学家面临越来越大的挑战,需要更准确地预测有害藻类爆发(HABs)。预测HABs的进展显著,因为需要更好的管理实践以及对HABs负面效应日益增长的关注。本文对HABs预测方法进行了按时间顺序的回顾,从早期的统计模型到当前的卷积神经网络(CNN)、深度学习和多模型整合方法。最初,HABs预测主要依赖于传统统计方法,但近年来,预测方法逐渐转向能够更准确捕捉HABs复杂、非线性动态的模型。随着公众对HABs的关注和环境意识的提高,模型的应用更加强调对特定环境中的生物和环境条件的理解,以更好地预测HABs的发生。新兴趋势包括模型的混合应用、无监督深度学习的广泛应用,以及个体模型的引入,以考虑生态系统的异质性。随着气候变化和技术进步,将先进的计算方法、实时数据和利益相关者的协作结合起来,被认为是构建更准确、高效和适应性强的预测系统的关键。
尽管藻类对水生生态系统至关重要,但某些种类的藻类,如蓝藻,会在淡水环境中形成有害藻类爆发,对人类、动物和生态环境造成危害。这些爆发可能引发皮肤反应、神经性疾病、肝损伤和胃肠道问题。此外,HABs的衰败会消耗水中的氧气,从而减少水生生物多样性。许多环境因素与HABs的发生有关,包括富营养化和全球变暖。虽然对HABs的全面经验理解仍是一个持续进行的工作,但越来越多的努力正致力于提高HABs的预测能力,以帮助湖泊管理。
生态建模是预测环境驱动生物事件的一种流行方法,如HABs。这类模型结合了数学、计算或概念模型,以模拟、理解和预测生态系统的动态变化。HABs模型通常基于大型但往往不完整的数据集,通过简化复杂系统来识别环境驱动因素与响应之间的关系。HABs数据通常存在高零膨胀分布,因为非爆发日的数据占多数,同时还表现出时间自相关性、季节性、空间异质性和对环境变化的滞后响应。这些因素都会影响模型的选择,并在预测HABs事件时需要考虑。计算能力的提升、对蓝藻生物学理解的加深,以及遥感等技术的进步,已经显著改变了HABs建模的发展。
理解模型如何从输入数据中学习是至关重要的,而独立观察用于模型验证是任何生态建模的关键组成部分。根据Power(1993)的研究,模型在预测新数据和训练数据之间的能力差异会影响其性能的解释。如果一个模型仅在训练数据上表现良好,那么它缺乏普遍性,可能产生误导性的结论。模型缺乏普遍性的原因通常是变量之间的弱相关性或仅在特定条件下强调变量之间的关系。在这种情况下,所使用的变量往往不适用于一般应用,也无法扩展到训练数据之外。增加模型中使用的变量可能会使单个模型更好地拟合训练数据,但这严重限制了其在其他未知数据中的适用性。这同样适用于时间序列和空间数据,因为它们的观测数据可能缺乏独立性。使用独立观测数据对模型进行交叉验证对于比较不同模型之间的性能至关重要,以避免此类问题。
在HABs预测中,另一个重要的考虑因素是处理不平衡数据集的预测准确性。如果一个数据集不平衡,例如80%的数据没有HABs事件,而只有20%的数据有HABs事件,那么该模型在预测没有HABs事件时可以达到80%的准确性。这种偏差可能导致预测结果中出现严重的错误,特别是当漏报(即错过HABs事件)具有重大环境和公共卫生风险时。因此,在开发预测模型时,评估和报告数据平衡至关重要,需要考虑这一点,并通过其他性能指标如精确率、召回率和接收者操作特征(ROC)曲线来补充准确性。目前,关于如何解决这一问题的研究仍在进行中,尤其是在深度学习、神经网络和大数据领域。
过去关于淡水HABs的综述文章涵盖了多个主题,例如湖泊中HABs的监测和预测,以及使用机器学习方法进行HABs预测。虽然这些综述文章总结了可用的预测方法,但它们没有按时间顺序组织信息,也没有区分过程驱动模型和数据驱动模型,或主要使用的模型方法。过程驱动模型依赖于数学原理来量化已知的生态或生物参数,而数据驱动模型则使用算法和统计方法来分析数据,识别可用于预测的变量模式。两种模型各有优劣,数据驱动模型在过去十年中在HABs预测中变得越来越流行。尽管这种方法有助于总结可用的模型,但它往往过于简化模型类型,忽略历史发展,并对某些方法为何不再被使用缺乏深入见解。采用按时间顺序的方法可以突出技术发展和数据可用性的演变,展示历史背景,并揭示预测HABs时优先事项和范式的变化。此外,这种方法还捕捉了数据和模型的共同进化,因为随着数据质量和数量的提高,更复杂的模型变得可行。
本文的主要目标是识别到目前为止在HABs预测方面取得的研究进展,并突出各种建模方法的未来发展方向。按时间顺序回顾主要模型将展示如何更好地预测HABs的方法论发展。HABs建模自生态建模开始以来已经有了显著的发展,方法不断改进,以寻找有效的预测方法。从简单的单变量模型开始,这一领域已经发展到能够代表整个生态系统和多个变量的深度学习过程。然而,比较和对比这些模型显示了每种模型的优势和局限性。因此,本文旨在填补对HABs模型随时间发展的理解空白,并展示这些模型如何随着新进展而演变,而不局限于过程驱动模型与数据驱动模型之间的分类。
本文采用系统文献综述的方法,通过Web of Science和Scopus进行检索,如Pickering和Byrne(2014)所描述。搜索关键词包括“蓝藻”、“藻类”或“蓝绿藻”以及“预测”,根据标题和摘要决定是否纳入或排除相关文献。这些论文随后被评估以确定其与主题的相关性,选择具有代表性的论文来突出每个时期使用的建模方法。这些论文按主要建模方法的时间顺序组织,所需的数据从每篇论文中提取。
以下部分将按时间顺序回顾HABs预测建模的发展,从20世纪70年代末期开始,逐步过渡到当前的方法以及未来的发展方向。本文将列出在以下部分中使用的缩写词,以供参考。在随后的部分中讨论的模型总结在表格中,列出各种建模类型的优势和劣势。这是一个对所讨论内容的简要总结,便于比较各种方法。根据所需结果、数据可用性、计算能力以及时间范围,模型选择会有所不同。这种审查展示了现有模型的多样性、它们的优势以及如何与当前的技术进步结合,从而比较每种模型方法的优缺点。
在20世纪70年代到2000年代初期,HABs预测模型的出现成为关注的焦点。当时,研究主要集中在理解HABs的生物学和环境驱动因素上。这一时期开发了两种主要类型的模型:早期主导的常规统计模型,以及后来出现的人工神经网络(ANN)。这些模型的设计和应用方法展示了HABs预测的早期阶段,即通过观察数据来理解环境因素对HABs的影响,而不是直接进行预测。因此,这些模型仅在文中简要提及。单变量建模通常用于研究单个变量,如营养物浓度或水温,对藻类生长的影响。这些相关模型为未来HABs预测方法的发展奠定了基础,提供了在多元模型中可能需要考虑的变量之间的关系的初步见解。这些模型类型,尤其是回归分析,具有提供初步数据评估和揭示变量之间关系的优势。此外,回归分析允许数据更容易地建模,但由于这些线性模型无法直接应用于捕捉HABs多个环境因素之间更复杂的、非加性交互,因此存在一定的局限性。
随着技术的进步和对ANN在HABs预测中应用的更好理解,研究人员开始探索非监督学习方法。这些方法不同于监督方法,因为网络使用未标记的数据进行训练,这意味着没有已知的输出来指导模型的学习。这种方法在创建完整输入和输出数据集存在数据不足时尤为重要。非监督ANN允许网络通过识别输入数据中的相似数据簇来区分输入数据,这与传统监督ANN方法形成对比。这种方法结合了物理、化学和生物时间序列数据,成功识别了季节性模式,并强调了非监督ANN在分析年际变化中的价值。此外,非监督ANN在处理复杂数据时表现出一定的优势,但同时也存在一些局限性,如数据的依赖性和模型解释的难度。
在2000年代中期到2010年代初期,HABs预测模型有了进一步的发展。随着公众对HABs事件的关注增加,研究的重点转向了理解促进HABs形成的因素和环境条件。这一时期,遗传算法(GA)和混合进化算法(HEA)在HABs建模中得到了更频繁的整合,而许多研究应用了新的建模技术来有效表示和预测HABs的形成。此外,贝叶斯网络(BN)和贝叶斯层次模型(BHM)框架也被用于HABs的预测。BN模型在这里被用作连接模型结果与生物因素的元模型,并提供概率分布。BHM则使用统计框架来处理嵌套数据或当参数在不同组之间变化时的情况。这些模型的应用为HABs预测提供了新的视角,并展示了如何在多层次结构中建模多个随机性来源。
在2010年代中后期,HABs预测模型在整合方法和机器学习方面取得了显著进展。HABs预测中,研究人员越来越多地采用混合模型和机器学习方法。例如,基于遗传算法(GA)的混合进化算法(HEA)被广泛用于预测HABs事件。这些算法借鉴了进化理论来设计模型,使用当前样本生成新的样本,模仿选择、交叉和变异等技术来解决复杂问题。尽管GA比HEA更简单,但它们需要更多的计算资源。通过将GA与多种模型结合,研究人员能够优化模型结构,提高预测的准确性。此外,研究还发现,HEA可以产生高精度的短期预测,甚至可以预测长达7天的HABs事件,为管理决策提供了充足的时间。
与此同时,研究人员也开始使用贝叶斯网络(BN)和高斯贝叶斯网络(Gaussian BN)进行HABs预测。BN模型的一个缺点是通常需要离散变量,而Gaussian BN允许研究人员使用连续分布的变量。这种方法在生态建模中尤为重要,因为许多生态变量是连续的。研究发现,Gaussian BN在预测HABs时表现良好,但其局限性在于它可能限制模型的通用性,导致更广泛或近似解决方案。此外,结合遥感数据与BN模型的尝试也显示出挑战,因为不同环境变量之间的尺度差异可能影响模型的预测能力。
在2020年代至今,HABs预测模型进一步发展,尤其是在卷积神经网络(CNN)和遥感数据整合方面。深度学习方法的应用变得越来越普遍,使得研究人员能够分析复杂的模式和庞大的数据集,从而开发出高精度的预测模型。CNN是一种三维深度学习模型,能够有效处理结构化网格数据,如图像和音频。CNN在分析卫星图像时表现出色,因为它们可以提取图像中的光谱特征,用于预测HABs的形成。此外,研究人员还探索了将CNN与其他模型结合的方法,如环境流体动力学代码(EFDC)作为环境水动力学模拟,或结合时间融合变压器(TFT)以提高时间序列模型的准确性和持续时间。这些方法在预测HABs时表现良好,但同时也存在一些挑战,如对高质量输入数据的依赖、模型训练和参数调整的复杂性,以及对模型决策过程的理解难度。
随着遥感技术的发展,研究人员越来越多地使用遥感数据进行HABs预测。遥感数据的获取成本相对较低,且能够提供实时监测能力,使得预测模型可以整合更广泛的数据集。例如,Lishaev等(2022)开发了一种自动算法,能够基于卫星图像识别HABs的光谱特征。这种算法不仅能够确定年际变化,还能识别影响HABs形成的物理因素。此外,Ratté-Fortin等(2022)采用了一种区域模型,利用HABs的生长周期来估计HABs发生的概率。这种方法即使在缺乏特定湖泊数据的情况下,也能生成可靠的预测,展示了区域预测方法的潜力。
在HABs预测领域,研究人员还在探索其他模型,如随机森林(RF)和深度学习(DL)模型。RF模型通过结合多个回归树来创建强大的预测模型,能够在短期内提供准确的预测,但可能低估长期预测。RF模型的一个优势是能够识别影响HABs的重要环境因素,但同时也存在过拟合、模型输出对输入数据的小变化敏感以及在数据点有限时引入偏差的问题。因此,模型验证使用独立观察数据对于确保模型的准确性至关重要。
近年来,随着计算能力和数据量的提升,研究人员开始探索更复杂的模型,如混合模型和深度学习方法。例如,Kim等(2023)使用了传统ANN模型,并结合了10折交叉验证方法,以提高模型的准确性和预测能力。这种方法展示了自适应训练模型在HABs预测中的潜力。此外,研究人员还结合了CNN和ANN,以处理不同环境因素之间的复杂关系。这种混合方法在预测HABs时表现出色,但同时也需要大量的训练数据和高质量的输入数据,以确保模型的可靠性。
未来HABs预测的发展方向包括模型与遥感数据的进一步整合、改进的遥感方法,以及转向无监督深度学习模型。Carey等(2025)提出了一些关于克服水体质量预测挑战的建议,这些建议同样适用于HABs预测。他们建议采用个体模型(IBM)来模拟HABs,这种方法通过将随机特性分配给个体,以考虑环境异质性,同时使用集成建模方法,并整合数据同化以增强实时数据的整合。此外,他们推荐使用“函数即服务”(Function-as-a-Service)方法进行数据处理,使数据处理直接在采样地点进行,以减少数据整合到模型中的时间。将不确定性项纳入预测模型对于用户和水资源管理者更好地理解预测结果中的风险具有重要意义。Carey等(2025)强调,与管理者共同生产预测是确保预测结果有效传达的关键。他们指出,当前HABs预测系统存在许多问题,并强调在气候变化背景下需要创新的方法。
随着气候变化带来的复杂性和不确定性,Ralston和Moore(2020)提出了许多关于HABs建模的建议。他们建议使用过程驱动模型,这些模型能够代表HABs形成中的物理和生物机制,因为它们在处理超出历史数据范围的影响时表现更好。他们还建议采用集成方法,这些方法考虑多种模型情景,以量化模型预测中的不确定性。许多综述中提到的建模方法已经隐含了这些集成方法,如混合模型,它们结合了不同技术的优势。使用高分辨率的气候模型进行降尺度处理可以提高模型的准确性。他们强调,模型应在实际应用的生态系统中进行开发,以确保预测的高准确性。如文中所述,模型的预期用途将影响其应用范围,无论是在单一湖泊、湖泊区域还是其他未用于训练的数据集上。模型的校准和训练应在实际应用的生态系统中进行,并需要独立测试数据集和交叉验证以确保模型在未见数据上的准确解释。
综上所述,本文旨在提供对HABs预测模型发展的更深入理解,并展示这些模型如何继续演变。选择性整合这些模型,并随着新模型的出现将其纳入,对于准确和及时预测HABs具有巨大潜力,从而为湖泊管理和淡水安全提供关键见解。鉴于全球变暖和富营养化的加速,这些HABs预测模型在人类社会中的重要性预计将持续增加。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号