综述:关于在废水质量预测的监督式机器学习模型中选择性能评估指标的批判性综述
《Journal of Environmental Chemical Engineering》:A critical review on selecting performance evaluation metrics for supervised machine learning models in wastewater quality prediction
【字体:
大
中
小
】
时间:2025年10月10日
来源:Journal of Environmental Chemical Engineering 7.2
编辑推荐:
本文系统回顾了27种污水处理厂水质预测模型的性能评估指标,分析了其适用场景、优缺点及局限性,提出结合数值指标与可视化技术的综合评估方法,并开发决策流程图指导指标选择,为模型可靠性和决策提供工具支持。
在当前的污水处理厂(WWTP)质量预测研究中,机器学习(ML)模型的应用已经相当广泛。然而,关于如何选择和解释性能评估指标的研究却相对较少。大多数研究依赖于通用的回归指标,如均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)以及决定系数(R2)。虽然这些指标被广泛使用,但它们在可解释性、对数据异常的敏感度以及在动态、噪声环境中的适用性方面存在显著差异。本文通过系统分析27种性能评估指标,深入探讨了它们的理论基础、优势、局限性和在监督式机器学习模型中的适用性。此外,还探讨了互补的图形化技术,如残差图或失败预测图,这些技术可以提供更深入的模型行为洞察,而这些洞察可能被纯粹的数值指标所忽视。本文的另一个重要贡献是开发了一个实用的决策流程图,帮助研究人员根据数据集特征、建模目标和项目限制选择合适的评估指标。此外,还总结了一个图形方法的参考工具包,用于在数值指标之外评估模型性能。这些资源不仅促进了研究中更明智和透明的指标选择,还为污水处理实践者提供了可操作的工具,以解释模型输出、比较预测方法,并识别适合可靠过程监测和操作决策的模型。
污水处理厂是复杂的系统,用于管理和修复复杂的污水流。这些设施的特点是进水成分的固有变化、动态操作条件以及各种过程参数之间的非线性相互依赖。监督式机器学习算法已逐渐成为建模这些动态和预测关键输出(如能耗、营养水平、进水流量和出水质量)的强大工具。然而,模型的有效性和可靠性在开发过程中严重依赖于评估框架。开发一个机器学习模型并不足以,还必须使用能够真实反映其预测能力的性能评估指标。在WWTP应用中,性能评估指标具有双重作用:一方面,它们指导模型开发过程,通过比较不同超参数设置和特征组合的结果,帮助研究人员评估模型是否过拟合或泛化良好;另一方面,它们为利益相关者提供透明且可量化的模型可靠性证明,从而建立对数据驱动系统的操作信任。因此,选择适当的性能评估指标对于准确评估模型的准确性、鲁棒性和泛化能力至关重要。
在选择性能评估指标时,一个关键挑战是选择能够与模型目标对齐的指标。例如,RMSE强调了显著残差误差的重要性,而MAE则通过平等地对待所有偏差,提供了更平衡的误差大小视图。MAPE则提供了一种直观的百分比误差测量方式,尤其适用于实际值在数量级上差异较大的情况。然而,这些指标在解释模型有效性时存在显著差异,特别是在存在异常值、偏态分布或样本量有限的情况下。对现有文献的回顾表明,研究中在指标选择上存在不一致性,一些研究仅依赖于一个指标,而另一些则报告多个指标,但缺乏标准化的理由。本文旨在通过批判性地评估现有文献中用于监督式ML应用的性能评估指标的优势、局限性和可解释性,解决这些空白。
本文的结构如下:首先,对Scopus数据库中的相关文献进行了全面的文献筛选,使用关键词“Wastewater”、“Machine Learning”和“Regression”。在大约300篇文章中,选出了126篇用于深入评审,这些研究直接相关于WWTP的监督回归建模。每项研究都被评估了所使用的性能指标类型和数量,以及其选择的显式或隐含理由。文章的其余部分依次讨论了性能评估指标的使用情况、R2的局限性及其对异常值的敏感性、其他较少使用的指标及其应用、用于评估模型性能的图形化技术,以及介绍了本文的新贡献:一套实用的推荐指南,以支持未来研究中性能指标的选择。最后,结论部分总结了关键发现,并强调了这些发现对污水处理相关ML研究的更广泛意义。
通过分析现有研究中使用的性能评估指标,可以发现大多数研究者倾向于使用少量的指标进行模型评估。在126篇研究中,有48篇仅使用一个指标,46篇使用两个指标,而只有25%(32篇)的研究使用了超过三个指标来评估模型的准确性。这种趋势表明,许多研究人员依赖于有限数量的评估指标,这可能导致对模型准确性和可靠性的不完整或误导性评估,尤其是在污水处理数据的非线性和噪声环境中。R2的频繁使用,尽管其对异常值的敏感度和在复杂环境中可能高估模型性能的倾向,凸显了更全面和稳健的评估实践的必要性。
在现有文献中,27种不同的性能评估指标被分析和讨论,涵盖了误差量化、相关性评估和模型泛化等多个功能目的。这些指标被分类为误差量化、相关性评估和模型泛化三类,并总结了它们的关键特性,包括尺度依赖性、对异常值的鲁棒性和时间敏感性。这些分类以表格形式呈现,以便于理解。其中,有8种指标被识别为最常用的,而其余19种指标则被归类为扩展的评估指标,因为它们仅在研究中偶尔出现。这些指标的定义、解释和关键属性在以下小节中按字母顺序进行了详细讨论。
在污水处理厂建模中,性能评估指标的选择对于确保模型的准确性和可靠性至关重要。某些指标可能更适合某些情况,而其他指标则可能在特定的建模目标或数据特性下更为适用。例如,R2指标可以提供关于模型对目标变量方差解释比例的直观信息,但其对异常值和测量噪声的敏感性可能导致其高估模型性能。相比之下,MAE通过计算预测值与实际值之间的绝对差异的平均值,提供了一种对误差大小进行标准化测量的方法,适用于所有误差均匀影响决策的场景。MAPE通过将预测误差表示为百分比,便于在不同数据集和模型之间进行比较,但在实际值接近零的情况下,其对小值的敏感性可能变得异常高。
在污水处理厂建模的背景下,R2的局限性尤为突出。当数据集包含异常值时,R2可能会被高估,从而导致模型性能的误解。例如,在一项使用多层感知机(MLP)模型预测生物化学需氧量(BOD)浓度的案例研究中,初始模型的R2值为0.78,表明良好的预测性能。然而,在去除了一些极端异常值后,R2值显著下降至0.31,这表明R2对异常值的敏感性可能导致其低估模型的实际性能。因此,R2不应单独用于评估模型性能,而应与其他指标如RMSE和MAE结合使用,以获得更全面的模型评估。此外,异常值的检测通常需要借助数据可视化工具,如散点图或时间序列图,否则显著的异常值可能被隐藏,导致误导性结论。
本文还讨论了其他较少使用的性能评估指标及其在污水处理建模中的应用。这些指标包括绝对平均偏差(AAD)、修正的Akaike信息准则(AICc)、平均绝对对数误差(MALE)、平均相对误差(MRE)、中位数绝对偏差(MAD)、归一化MAE(nMAE)、预测速度和训练时间、残差预测偏差(RPD)、RMSE/STD比值(RSR)等。这些指标各有优劣,适用于不同的建模场景和数据特征。例如,AAD是一种衡量预测值与实际值之间平均绝对误差的指标,它以实际变量的相同单位表示,适用于经济学、天气预测或商业等领域。AICc则是一种调整后的Akaike信息准则,特别适用于小样本数据集的模型选择。MALE通过应用对数变换来减少显著异常值或广泛范围数据集的影响,而MRE则提供了与数据集尺度无关的误差度量方式,有助于在不同预测系统中进行比较。
在污水处理厂建模中,这些指标的选择和应用必须考虑数据集的特征、建模目标和项目限制。例如,当数据集存在异常值时,MAD可能比AAD更具鲁棒性,因为它基于中位数而不是均值,从而减少了异常值的影响。此外,当数据集具有偏态分布时,MALE可能比MAE更具优势,因为它能够减少显著异常值的影响。在评估模型的泛化能力时,RPD、RRSE和RSR等指标可能更为适用,因为它们能够提供模型在不同数据集上的预测能力的更全面的评估。
除了数值指标,本文还强调了图形化技术在模型评估中的重要性。这些技术可以提供关于模型行为的直观洞察,这些洞察可能被纯粹的数值指标所忽略。例如,散点图和残差图可以帮助识别模型的系统性误差、预测偏差和异常值。此外,热图、雷达图、训练/测试误差比图、误差条图、失败预测图、William's图和泰勒图等图形化方法,为模型评估提供了更丰富的视角。这些工具不仅有助于识别异常值,还能增强模型的可解释性,帮助研究人员和实践者更好地理解模型的性能。
在污水处理厂建模的背景下,选择适当的性能评估指标是确保模型准确性和可靠性的重要步骤。本文提出了一个实用的决策流程图,帮助研究人员根据数据集特征、建模目标和项目限制选择合适的评估指标。此外,还总结了一个图形方法的参考工具包,用于在数值指标之外评估模型性能。这些资源不仅促进了研究中更明智和透明的指标选择,还为污水处理实践者提供了可操作的工具,以解释模型输出、比较预测方法,并识别最适合可靠过程监测和操作决策的模型。
本文的结论强调了选择合适性能评估指标的重要性,并指出在数字转型和数据驱动操作的时代,这种选择对于污水处理厂的建模和应用具有关键意义。通过结合统计和图形化技术,不仅可以增强模型的鲁棒性和可解释性,还能提高操作效率,确保在日益复杂和数据丰富的环境中实现监管合规和可持续决策。本文提出的框架不仅提供了一个用于选择适当评估指标的结构化流程图,还提供了一组代表性图形,以帮助解释模型结果。这些工具使污水处理厂的实践者和研究人员能够识别最适合预测关键出水参数的可靠模型,从而支持更准确的过程分析和明智的操作决策。通过将指标选择与实际解释联系起来,该框架增强了机器学习在污水处理质量管理和操作决策中的透明度、鲁棒性和适用性。然而,仍有进一步开发统一评分系统的空间,特别是在评估复杂污水处理环境中的多目标模型时,设计加权综合指数是一个有前景的研究方向。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号