ShaTS:一种基于Shapley方法的时序人工智能模型可解释性技术
《Future Generation Computer Systems》:ShaTS: A Shapley-based Explainability Method for Time Series Artificial Intelligence Models
【字体:
大
中
小
】
时间:2025年10月02日
来源:Future Generation Computer Systems 6.2
编辑推荐:
工业物联网依赖时间序列数据提升异常检测精度,但传统解释方法忽视时序依赖导致结果碎片化。本文提出ShaTS,一种基于Shapley值的可解释AI模块,通过先验特征分组策略整合时空关联,实验表明其优于传统SHAP方法,在SWaT数据集上准确识别传感器级/过程级异常源,且资源消耗更低,满足实时工业需求。
在工业物联网(IIoT)环境中,随着技术的发展,对异常检测(Anomaly Detection, AD)和解释性人工智能(Explainable AI, xAI)的需求不断上升。这些系统通过持续的传感器和执行器数据流来监测和控制复杂的工业流程,而数据的时序特性使得传统的表格数据处理方法难以捕捉到潜在的异常模式。因此,越来越多的研究开始关注基于时序数据的异常检测模型,并探索如何为这些模型提供更精准、更具操作性的解释。Shapley值作为一种源自合作博弈论的解释性方法,已经被广泛应用于特征归因领域。然而,传统的Shapley值计算方法往往忽略了时序数据中的动态关系,导致解释不够精确或缺乏实际指导意义。为了解决这些问题,本文提出了一种名为ShaTS(Shapley values for Time Series models)的新方法,该方法通过引入先验的特征分组策略,增强对时序数据模型的解释性,并提升资源利用效率,从而满足工业环境中的实时需求。
### 1. 异常检测与解释性AI的重要性
工业4.0的推进使工业系统更加依赖自动化和智能化,其中工业物联网(IIoT)技术扮演了关键角色。这些系统通过部署大量传感器和执行器,实时收集和处理数据,以实现对复杂流程的监测与控制。然而,随着系统复杂性的增加,安全威胁也逐渐显现,例如数据篡改、网络攻击或设备故障。这些威胁可能对生产流程造成严重影响,甚至导致事故。因此,工业环境中需要高效的异常检测机制,以便在第一时间识别潜在威胁并采取相应的措施。
与此同时,尽管深度学习和机器学习模型在异常检测任务中表现出色,但它们的“黑箱”特性使得用户难以理解模型的决策过程。这种缺乏可解释性的缺陷限制了其在关键系统中的应用,尤其是在需要快速响应的场景中。解释性AI(xAI)方法的引入,旨在提高模型的透明度,帮助操作人员理解异常的来源,并采取针对性的干预措施。其中,Shapley值因其公平性和可解释性,成为一种备受关注的特征归因方法。然而,传统的Shapley值计算方式通常将数据视为静态特征,忽视了时间序列数据的时序依赖性,这使得其在工业环境中无法提供精确的、可操作的解释。
### 2. ShaTS方法的创新点
为了解决上述问题,本文提出了ShaTS方法,这是一种基于Shapley值的可解释性AI模块,专门针对时间序列数据。该方法的核心创新在于引入了“先验特征分组”策略,以确保在计算Shapley值之前,就将具有相关性的特征进行合理的分组,从而保留时间序列中的动态关系。这种方法可以分为三种不同的分组策略:时间分组、特征分组和多特征分组。每种分组策略都旨在捕捉数据在不同维度上的影响,以提供更全面的解释。
- **时间分组策略**:将时间窗口内的每个时间点作为一个分组,有助于识别异常事件的起始和结束时刻。这种策略特别适用于分析时间序列数据中动态变化的特征,例如在某个时间点发生的异常是否具有渐进性。
- **特征分组策略**:将每个特征作为一个独立的分组,以便于评估其在模型预测中的独立贡献。这种策略可以用于检测特定传感器或执行器是否是异常的根源。
- **多特征分组策略**:将具有逻辑关联或代表同一物理组件的多个特征组合为一个分组,以分析它们的协同作用。这有助于识别异常是否是由多个相关特征共同导致的,从而提供更高层次的解释。
通过这三种分组策略,ShaTS能够在不同的分析层面提供有针对性的解释,同时保留时间序列数据的时序依赖性。这种方法不仅提高了模型解释的准确性,还降低了计算复杂度,使得ShaTS能够在工业环境中实现高效的实时应用。
### 3. ShaTS方法的实现流程
ShaTS方法的实现分为三个主要步骤:背景数据集的构建、分组策略的选择以及Shapley值的计算。
- **背景数据集的构建**:背景数据集是从训练数据中选取的代表性样本,用于估计模型在不同特征组合下的输出。通过保留背景数据集中正常的和异常的样本比例,可以确保Shapley值的计算具有较高的准确性。例如,在ShaTS实验中,背景数据集包含500个实例,其中12.1%为异常,与原始数据集保持一致。
- **分组策略的选择**:根据分析目标,选择合适的分组策略。例如,在识别异常来源时,使用传感器/执行器分组策略;在分析异常的演变过程时,使用时间分组策略;而在评估整个工业流程的异常影响时,使用多特征分组策略。
- **Shapley值的计算**:在选择分组策略后,使用近似方法计算Shapley值。该方法通过减少特征组合的数量,提高了计算效率,同时保持了解释的准确性。例如,在ShaTS实验中,使用了20个特征组合的数量,而不是所有可能的组合,以减少计算负担。
### 4. 实验与评估
为了验证ShaTS方法的有效性,本文在Secure Water Treatment(SWaT)数据集上进行了实验。SWaT数据集包含六个相互关联的工业流程,模拟了真实水处理系统的运行情况。每个流程都配备了多个传感器和执行器,用于监测和控制系统运行。数据集涵盖了约11天的记录,共计946,722个样本,其中36次真实的攻击事件被标记。
在实验中,ShaTS方法被用于评估其在异常检测框架中的表现。通过与传统的SHAP方法进行对比,本文验证了ShaTS在保留时间依赖性、提供可解释性见解以及减少资源消耗方面的优势。
#### 4.1. 实验结果分析
实验结果显示,ShaTS方法在异常检测和解释方面优于传统的SHAP方法。首先,ShaTS能够更精确地识别异常发生的时点。例如,在实验中,ShaTS在时间分组策略下,能够区分出攻击的起始和结束时刻,而SHAP方法由于忽略了时间依赖性,无法明确指出这些时刻。
其次,ShaTS在识别异常来源方面表现突出。在传感器/执行器分组策略下,ShaTS能够将异常归因于特定的传感器或执行器,而SHAP方法由于是后处理的,导致特征归因的分布较为分散,难以明确异常的根源。例如,在实验中,ShaTS能够将攻击归因于传感器AIT504,而SHAP方法仅将其归因于部分传感器,导致解释不够聚焦。
此外,ShaTS在资源消耗方面表现优异。由于采用了近似计算方法,ShaTS在计算Shapley值时所需的时间和内存远低于传统的SHAP方法。例如,在处理100个时间窗口时,ShaTS的平均执行时间仅为0.1秒,而SHAP方法在高配置下需要超过1秒,甚至超出GPU内存限制,导致必须使用CPU进行计算。
#### 4.2. 实验结果可视化
为了更直观地展示ShaTS方法的解释效果,本文采用热图进行可视化。热图的横轴表示时间窗口,纵轴表示分组后的特征。每个单元格的颜色代表该特征组对模型预测的贡献度,红色表示正向贡献,蓝色表示负向贡献,颜色越深表示影响越强。紫色曲线则表示模型预测的异常概率,当该曲线超过阈值(0.5)时,表示该时间窗口被判定为异常。
在实验中,ShaTS的热图能够清晰地显示出异常发生的关键时间点,以及受影响的传感器或执行器。例如,在攻击19的分析中,ShaTS的热图显示了AIT504的高贡献度,而SHAP方法的热图则显示了多个传感器的低贡献度,使得异常来源不明确。
### 5. ShaTS方法的优势与局限性
ShaTS方法的主要优势在于其对时间序列数据的适应性。传统的Shapley值方法通常将数据视为静态的,忽略了时间依赖性,导致解释不够准确。而ShaTS通过引入先验的特征分组策略,能够保留时间序列中的动态关系,提供更具操作性的解释。此外,ShaTS在计算效率方面也优于传统方法,这使得其在工业环境中具备实时应用的潜力。
然而,ShaTS方法仍然存在一定的局限性。首先,其依赖于将模型特征映射到物理组件或流程的先验知识。如果缺乏这种映射,ShaTS的解释将无法直接指导实际操作。其次,由于Shapley值的计算依赖于特征组合的近似,因此在不同情况下可能会产生不同的结果。这些近似方法的选择,如背景数据集的构建和特征组合的采样策略,对最终的解释质量具有重要影响。
### 6. 未来工作
为了进一步提升ShaTS方法的适用性,未来的工作将集中在以下几个方面:
- **扩展应用场景**:目前的实验主要集中在水处理系统上,未来将尝试在其他工业场景中应用ShaTS,例如能源、制造和交通等。通过跨领域的实验,验证ShaTS的泛化能力。
- **优化分组策略**:本文提出的三种分组策略已经能够提供有针对性的解释,但还可以进一步探索更精细的分组方式,例如基于特征之间的相关性或因果关系的分组,以提高解释的准确性。
- **提升计算效率**:虽然ShaTS已经比传统方法更高效,但进一步优化其计算流程,以适应更大的数据集和更复杂的模型,仍然是一个重要的研究方向。
- **与其他解释方法的比较**:为了验证ShaTS的优越性,未来可以与其他基于Shapley值的解释方法进行对比,例如DeepSHAP、LIME和Ale等,以评估其在不同场景下的表现。
### 7. 总结
本文提出的ShaTS方法,是一种针对时间序列数据的可解释性AI模块,能够更精准地识别异常发生的时点和受影响的传感器或执行器。通过引入先验的特征分组策略,ShaTS不仅保留了时间序列数据的动态关系,还提升了模型解释的可操作性。实验结果表明,ShaTS在资源消耗和计算效率方面优于传统的SHAP方法,使其在工业环境中具备实时应用的潜力。未来的研究将进一步拓展ShaTS的应用范围,并探索更优化的分组策略和计算方法,以提升其在复杂工业系统中的解释能力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号