解决由于时间延迟导致的废水处理中数据稀缺问题:一种基于半监督协同MTN-MRR框架的批量一致性置信度方法

《Water Research》:Tackling Data Scarcity in Wastewater Treatment Resulting from Time-delay: A Semi-Supervised Collaborative MTN-MRR Framework with Batch Consistency Confidence

【字体: 时间:2025年12月27日 来源:Water Research 12.4

编辑推荐:

  针对污水处理厂关键水质参数预测中的数据稀缺问题,提出BCC-SSL-MTN-MRR框架,结合EMA预处理、多尺度时空卷积、MiniRocket Ridge回归及批一致性半监督策略,显著降低RMSE达23%以上。

  
Jing Wu|Jinwei Zhou|Lili Tang|Mian Lin|Yan Chen|Abid Aman|Yiqi Liu

摘要

准确预测水质参数对于废水处理厂(WWTPs)的高效运行至关重要。然而,在实际的WWTPs中,由于实验室分析的延迟,关键水质参数的测量往往会出现显著的延迟。与可以实时测量的变量相比,这种时间延迟导致诸如BOD5等关键出水参数的数据稀缺。为了解决这些问题,本文提出了一种新颖的半监督协同训练框架,该框架结合了批量一致性置信度,专为数据稀缺环境中的软传感器建模而设计。该框架首先使用基于指数移动平均(EMA)的预处理模块来去噪和净化原始输入数据,以提高训练的可靠性。随后,采用多尺度时间网络(MTN),该网络利用自适应的时空卷积在多个时间尺度上提取层次动态特征。为了进一步提高在噪声和数据稀疏环境中的鲁棒性,我们引入了MiniRocket岭回归(MRR)模块,它将快速的MiniRocket变换与岭回归相结合。此外,还提出了一种基于批量一致性置信度的半监督学习策略,通过一种具有置信度意识的批量一致性机制来最大化未标记数据的效用。最后,在基准模拟模型No. 2(BSM2)模拟和真实世界数据集上的广泛实验表明,我们提出的软传感器显著提高了预测准确性和泛化能力。与最佳基线方法相比,该方法在BSM2数据集上的RMSE降低了23.38%,在真实世界数据上的RMSE降低了24.27%。此外,在MAE、R、R2和RMSSD方面也始终优于其他方法。

引言

为了优化废水处理系统的控制并评估其去除效率,需要精确监测关键出水参数,例如五日生化需氧量(BOD5)和总氮(TN)(Fang等人,2024;Xie等人,2025;Bolong等人,2020)。这一努力通常因相互关联的生物过程的复杂性以及不准确且昂贵的传感设备而变得更加复杂(N. Bolong等人,2009)。这些限制使得从技术和经济角度定期监测重要参数变得困难。软传感器已成为应对这些问题的一个强大而有效的替代方案(Wang等人,2024;Xie等人,2024;Li等人,2024)。为了建立易于获取的过程参数(如pH值、溶解氧和浊度(Ba-Alawi等人,2025)与更难测量的参数(如BOD5和TN)之间的预测相关性,总是使用数学建模方法。软传感器通过利用历史数据和实时数据提供精确且快速的出水质量估计,特别是在直接测量不切实际或不可行的情况下。这种方法不仅提高了废水处理过程的效率和可靠性,还大大减少了对手动传感器的依赖,从而降低了相关的维护成本和劳动力需求。因此,软传感器模型有助于改进现代废水处理厂的预测控制策略并优化运营效率(Lin等人,2025;Xie等人,2023)。尽管软传感器在WWTPs中的应用日益增加,但仍存在一些根本性挑战。最突出的问题是测量关键水质参数时的固有延迟,这主要源于实验室分析的耗时性质。这种延迟进一步导致时间序列数据的严重稀缺,从而导致标记样本和未标记样本之间的显著不平衡,从而削弱了软传感器建模的有效性。在现实世界的运行条件下,数据稀缺可能会引入系统偏差,并显著降低监督算法的学习效率。因此,开发能够充分利用大量未标记数据的高级半监督学习方法对于缓解由测量延迟引起的数据稀缺问题至关重要。
因此,一个关键的研究重点是将未标记过程数据中固有的信息用于提高预测准确性(Li等人,2025)。为了解决这个问题,人们非常关注半监督学习(SSL)策略的发展。在这些策略中,协同训练算法表现出了出色的性能。通过使用多种不同的模型迭代地为未标记数据分配伪标签,并通过交叉一致性进行验证,协同训练显示出在提高泛化和预测准确性方面的显著能力。然而,传统的协同训练框架通常忽略了废水处理系统中存在的时间数据结构(Jia等人,2024)。这种忽视在迭代伪标记过程中尤为成问题,因为它未能考虑时间序列依赖性,可能导致累积错误和模型性能的逐渐下降——尤其是在应用于高度时间相关的过程变量时。
最近在半监督软传感器方面的进展集中在整合提取废水处理数据中潜在信息的机制上。Li等人(2020)开发了一个半监督框架,其中将标记样本分组并在协作训练策略中加以利用。他们的方法关键在于使用了双向长短期记忆(Bi-LSTM)网络来构建一个数据驱动的动态软传感器模型,该模型专门设计用于捕捉复杂的时间模式并缓解传统协同训练中时间序列结构的忽视。然而,当应用于高维数据集时,这种方法遇到了显著的计算限制。为了提高模型的适应性,Wu等人(2023)提出了一种结合半监督学习的自适应混合软传感器模型。该框架根据传入的数据流不断更新模型参数,从而减少了由时间变化引起的性能漂移。同时,Baskar等人(2025)引入了一种基于图神经网络(GNN)的方法,该方法明确模拟了处理过程中各种单元操作之间的空间和时间交互。通过在训练期间充分利用未标记数据,他们的方法显著提高了具有强时间相关性的关键水质参数的预测准确性。然而,最近在深度学习架构方面的进展,包括Transformers(Vaswani等人,2017)、Mamba(Jafari等人,2024)和RWKV(Peng等人,2023)模型,在各个领域都展示了显著的性能提升。这些前沿架构通过优化的批量处理显著提高了计算效率。相比之下,传统的半监督方法通常顺序处理未标记数据,无法有效利用时间相关性。更重要的是,它们与现代基于批量的处理方案不兼容,限制了它们与现代深度学习的集成。
在废水处理过程的软传感器建模领域,一个持续存在的挑战是水质变量之间的多重共线性问题。为了解决这个问题,研究人员越来越多地转向L2正则化线性方法,如岭回归(He等人,2022),这些方法在缓解线性相关数据集中的共线性方面非常有效。然而,这些模型中的线性基本假设严重限制了它们捕捉废水处理数据中通常存在的复杂非线性依赖性的能力。因此,传统线性模型往往难以揭示更深层次的特征交互,导致预测不准确。相比之下,近年来深度学习技术显示出相当大的潜力。值得注意的是,Zheng等人(2024)引入了时间卷积网络(TCN)用于工业过程预测。他们的方法通过分层架构和扩张卷积以及扩展的感受野成功捕捉了过程变量之间的非线性动态关系。尽管有这些优势,标准的TCN架构在建模多变量废水数据集时仍面临限制。它们固定的时间结构使得难以适应水质指标的多尺度波动(Guo等人,2024),而它们统一的特征提取机制可能无法捕捉重要的跨变量交互(Gong等人,2025)。这些架构限制了模型检测细微但关键特征的能力,最终限制了其预测准确性。
为了克服这些挑战,本研究提出了一种名为BCC-SSL-MTN-MRR的半监督协作框架。该框架基于一个具有批量一致性置信度的协作模型,整合了多尺度时间网络(MTN)和MiniRocket-Ridge回归(MRR)。该方法首先使用EMA算法来增强模型对噪声和稀疏输入数据的鲁棒性。随后,构建了一个具有自适应时空卷积的MTN模型,以在多个时间尺度上提取层次动态特征。为了进一步提高在噪声和数据稀疏环境中的鲁棒性,我们引入了MRR模块,它将快速的MiniRocket变换与岭回归相结合。此外,还提出了一种基于批量一致性置信度的半监督学习(BCC-SSL)策略,通过一种具有置信度意识的批量一致性机制来最大化未标记数据的效用。最后,使用模拟和真实世界数据集验证了所提出框架的预测性能。
本文的其余部分组织如下。第2节我们回顾了数据集描述、数据准备以及所提出的软传感器及其组成组件的架构。第3节报告了不同算法的比较实验结果、性能分析以及消融实验。第4节讨论了实验结果的解释及其实际意义。最后,第5节给出了本文的结论。

基准模拟模型No. 2的案例分析

BSM2是由国际水协会(IWA)和欧盟科学技术合作组织(COST)共同开发的,代表了一个全规模的WWTPs模拟平台。处理过程包括五个生物反应器(其中两个为厌氧罐,三个为好氧罐),随后是一个二次澄清器。有机物主要通过系统内的硝化和反硝化过程去除,该系统设计用于平均日流量为

模型验证和性能评估

通过使用两个不同的数据集对所提出的BCC-SSL-MTN-MRR软传感器模型进行了系统的性能评估:(1)由BSM2生成的模拟废水处理数据;(2)从中国贵州省的一个全规模废水处理厂收集的运营数据。第一个数据集使用BSM2构建了一个模拟的废水处理环境,严格遵循了描述的基本生化动力学

讨论

比较和消融结果提供了关于数据稀缺和延迟影响条件下的废水质量预测的几个重要见解。
  • (1)
    EMA滤波器的引入明显减少了两个数据集中的随机噪声和异常值。如表8和表9所示,EMA的引入使BSM2上的TN RMSE降低了约14%,证实了时间平滑能够稳定模型训练并在传感器信号不稳定时提高模型的泛化能力。
  • (2)

结论

本研究提出了一种半监督协作软传感器框架BCC-SSL-MTN-MRR,用于解决WWTPs中关键参数的软传感器问题,这些问题受到数据不平衡和时间数据稀缺的挑战。获得了以下关键发现:
  • (1)
    通过利用批量一致性置信度半监督策略,可以有效缓解由延迟引起的数据稀缺问题,将RMSE降低了23%以上,优于现有的最佳基线方法。
  • (2)
    MTN

未引用的参考文献

Li等人,2025;Seshan等人,2025;Chang等人,2024

CRediT作者贡献声明

Jing Wu:写作——审阅与编辑、验证、监督。Jinwei Zhou:写作——审阅与编辑、原始草稿编写、可视化、方法论。Lili Tang:写作——审阅与编辑、可视化、验证。Mian Lin:写作——原始草稿编写、可视化。Yan Chen:写作——审阅与编辑、资源整理、形式分析。Abid Aman:写作——审阅与编辑。Yiqi Liu:写作——审阅与编辑、验证、监督、资源整理。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本项目得到了以下机构的支持:国家自然科学基金(资助编号:62273151, 62073145, 12461077, 62266013, 92467106)、广东省基础与应用基础研究基金(资助编号:2021B1515420003)、广东省通用机构创新团队研究基金(资助编号:2023KCXTDO72)、贵州省教育厅自然科学基金(资助编号:QJJ2023012)以及贵州省教育厅自然科学研究项目(资助编号:
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号