用于模糊模型中规则简化的可解释人工智能,以调整空气污染测量数据
《Environmental Modelling & Software》:Explainable AI for rule reduction in fuzzy models for air pollution measurement adjustment
【字体:
大
中
小
】
时间:2025年10月15日
来源:Environmental Modelling & Software 4.6
编辑推荐:
本研究提出基于可解释人工智能(XAI)的两种新方法,用于优化自适应神经模糊推理系统(ANFIS)的规则简化,以提升PM2.5低 cost传感器校准的透明度和效率。通过分析规则激活频率和强度,二进制激活方法(BAM)和加权激活方法(WAM)有效减少冗余规则,在多个地理区域测试中,WAM能保持MAE平均仅增加0.1,PCC高达0.96,同时将规则数减少40%-60%。该框架平衡了模型性能与可解释性,适用于环境监测等高可靠性需求场景。
在当前的环境监测领域,低成本传感器被广泛用于实时获取空气质量数据。这些传感器以其高空间分辨率和易于部署的特点受到青睐,但它们的测量精度往往受到多种因素的影响,例如校准漂移、气象条件的敏感性以及不同传感器之间的差异性。为了确保数据的可靠性,研究者们提出了多种方法来调整这些低精度传感器的输出,使得其能够更好地反映实际环境中的污染物浓度。然而,传统的校准方法在适用性和可解释性方面存在局限,难以满足现代环境监测对透明度和可解释性的需求。
因此,本文提出了一种基于可解释人工智能(XAI)的规则简化方法,用于改进自适应神经模糊推理系统(ANFIS)在PM2.5测量调整中的可解释性和效率。研究者们开发了两种全新的算法,即二进制激活方法(Binary Activation Method, BAM)和加权激活方法(Weighted Activation Method, WAM),以评估和消除冗余规则,同时保持模型的预测性能。这些方法通过分析模型中每个规则的激活频率,为后续的规则剪枝提供了依据,并且在多个地理区域进行了验证。
在实验部分,研究者们使用了来自意大利多个城市的真实数据集,包括由区域性环境保护机构(ARPA)和低成本传感器(LCS)提供的数据。这些数据集涵盖了不同环境条件下的空气质量数据,为模型的校准和调整提供了丰富的数据支持。通过将这些数据与参考传感器(RS)进行对比,研究者们能够评估模型在调整低成本传感器数据时的性能。此外,研究者们还从加拿大卡尔加里和秘鲁利马引入了开放数据集,以增加地理多样性并确保模型的泛化能力。
实验结果显示,规则剪枝在训练集上平均使MAE(平均绝对误差)增加了0.2,在测试集上增加了0.1。尽管有一定程度的误差增加,但剪枝后的模型仍然保持了较高的相关性,测试集上的皮尔逊相关系数(Pearson Correlation Coefficient, PCC)范围从0.73到0.96,这表明剪枝并没有显著影响模型的预测能力。这些结果支持了在环境监测中开发可靠且可解释的人工智能系统的可行性,特别是在需要确保模型输出可信度的敏感领域,如公共卫生和环境政策制定。
研究还介绍了两种用于评估规则重要性的方法。BAM通过计算规则在训练样本中的触发次数来评估其重要性,而WAM则考虑了规则的激活强度,使得规则剪枝更加精细和有效。这两种方法在多个数据集上进行了验证,并展示了它们在保持模型性能的同时,如何有效减少规则数量,从而提升模型的可解释性。研究者们还设计了一种迭代的规则剪枝过程,通过逐步移除规则并重新训练模型,来评估剪枝对模型性能的影响。
在实际应用中,模型的简化对于资源受限的环境尤为重要。通过减少计算成本、内存需求和能耗,使得这些模型能够更好地适应实时或嵌入式部署。同时,规则重要性评估机制还为可解释人工智能领域提供了新的见解,有助于理解模型内部的工作机制,从而支持对模型优化和可信度的决策。
此外,研究者们还探讨了这两种方法与其他现有XAI技术的比较,例如SHAP和LIME。虽然这些方法在其他领域得到了广泛应用,但它们通常需要额外的解释工具,而模糊系统本身具有良好的可解释性,因为其规则结构清晰,便于理解和分析。通过结合模糊系统与XAI工具,可以进一步增强模型的解释能力,同时保持其预测性能。
在算法复杂度方面,BAM和WAM的复杂度相同,主要由输入样本数量和模糊规则数量的乘积决定。其中,排序步骤是计算成本最高的部分,但使用更高效的排序算法可以显著降低计算时间。实验结果显示,在大规模数据处理中,WAM相比BAM具有更高的效率,能够在减少计算资源的同时,保持模型的性能。这对于实时数据处理和资源受限的环境来说,是一个重要的优势。
综上所述,本文提出的方法不仅能够有效减少ANFIS模型的复杂度,还能够在保持模型预测性能的同时提升其可解释性。这对于环境监测领域的实际应用具有重要意义,尤其是在需要高可靠性和透明度的场景中。未来的研究可以进一步探索如何结合多个地点的数据进行训练,以提高单个地点传感器的校准效果,并评估ANFIS方法在不同环境背景下的泛化能力。这将有助于减少低成本传感器与参考站的共置需求,提高环境监测的效率和覆盖范围。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号