《Journal of Modern Power Systems and Clean Energy》:Spatiotemporal Feature Extraction from Integrated Multivariate Time Series via MCNN-LSTM for Wind Turbine Fault Diagnosis
编辑推荐:
针对风电SCADA数据不平衡导致少数故障诊断准确率下降的难题,研究人员开展了基于多变量时序时空特征提取的故障诊断方法研究。他们提出了融合空间拓扑与时间演化的集成多变量时序表示法,构建了层次化MCNN-LSTM模型提取时空融合特征,并设计了改进的加权交叉熵损失函数。结果表明,该方法在真实数据集上取得了优异的综合性能,为提升风机运行可靠性提供了有效方案。
在追求绿色能源转型的全球浪潮中,风力发电扮演着越来越重要的角色。然而,矗立在风口浪尖的风力发电机(WT)结构复杂、运行环境恶劣,其关键部件(如齿轮箱、发电机、叶片等)的故障时有发生,一旦故障未及时发现,轻则导致发电量损失,重则引发设备严重损坏甚至安全事故,造成巨大的经济损失。为了保障风机安全、稳定、高效运行,对其进行状态监测与故障诊断至关重要。
现代大型风机通常配备有数据采集与监控(SCADA)系统,能够持续不断地采集并记录反映风机运行状态的数十甚至上百个参数,如风速、功率、转速、温度、振动等,形成了海量的多变量时间序列数据。这为基于数据驱动的智能故障诊断提供了丰富的“原料”。然而,理想很丰满,现实却很“骨感”。在风机的实际运行中,大部分时间都处于正常状态,发生故障的时刻相对稀少。这就导致收集到的SCADA数据存在严重的类别不平衡问题——代表各种故障的“少数类”样本数量,远远少于代表正常状态的“多数类”样本。当我们将这些不平衡的数据直接喂给常规的机器学习模型时,模型会倾向于“偷懒”,即过度学习数量庞大的正常状态模式,而对那些数量稀少但至关重要的故障模式“视而不见”或学习不足。这直接导致故障诊断的准确率,特别是对少数故障类的检测率显著下降,使得智能诊断系统在实际应用中面临“失灵”的风险。
此外,风机故障的机理复杂,其发生与发展往往不是由单一参数异常引起,而是多个物理量在空间(不同部件、不同测点)和时间上相互作用、协同演变的结果。例如,轴承的早期磨损可能同时引起振动加剧和温度升高,并且这种异常信号会随时间推移而增强。如何从高维、耦合的多变量时间序列中,有效地提取并融合这种隐藏在数据背后的空间关联特征与时间演化规律(即时空特征),是另一个技术难点。传统的故障诊断方法要么侧重于单一时间点的多变量分析(忽略时间动态),要么对每个变量单独进行时序分析后再简单拼接(忽略变量间的空间关联),难以捕获真正的时空耦合故障特征。
正是为了攻克上述“数据不平衡”与“特征提取难”的双重挑战,一项题为《Spatiotemporal Feature Extraction from Integrated Multivariate Time Series via MCNN-LSTM for Wind Turbine Fault Diagnosis》的研究在《Journal of Modern Power Systems and Clean Energy》上发表。这项研究旨在开发一种更鲁棒、更精准的风机故障诊断方法。研究人员认识到,要想提升模型对少数故障的识别能力,必须从数据表示、模型架构和损失函数三个层面进行协同优化。他们最终提出了一种全新的框架,其核心思路是:首先,将原始杂乱的SCADA数据,重组为一种能够同时显式编码物理空间拓扑和时序演化特性的“集成多变量时间序列(IMTS)”矩阵;然后,设计一个能够分层提取“空间”关联特征和时间依赖特征的混合神经网络模型(MCNN-LSTM);最后,在模型训练时,通过改进的损失函数,迫使模型将更多的“注意力”资源分配给难分类的少数类样本。实验证明,这套“组合拳”成效显著,在真实的SCADA数据集上取得了卓越的综合诊断性能。
为开展研究,作者主要运用了以下关键技术方法:1. 集成多变量时间序列(IMTS)数据表示法:通过滑动窗口整合多源时序数据,构建双标签矩阵,显式编码变量的物理空间拓扑与时间演化。2. 层次化MCNN-LSTM模型架构:结合多尺度卷积神经网络(MCNN)提取跨变量关联特征(视为空间特征)并提供全局状态先验,利用堆叠的长短期记忆网络(LSTM)捕捉短长期时间依赖,并通过特征对齐与融合模块学习时空融合特征。3. 改进的加权交叉熵损失函数:引入基于核密度估计的样本概率作为正则化项,使模型关注少数类和难分类样本。研究所用数据来源于真实风电场SCADA系统数据集。
研究结果
1. 集成多变量时间序列(IMTS)表示的有效性
为了验证所提出的IMTS数据表示方法的优势,研究人员将其与几种基线数据表示方法进行了对比实验。基线方法包括:直接使用原始多变量时间序列、经过滑动窗口处理但未进行空间拓扑编码的序列、以及仅考虑空间关联的图表示等。实验结果表明,在使用相同分类模型(如标准LSTM或CNN)的情况下,基于IMTS表示的数据所训练出的模型,在宏平均F1分数(F1-macro)和几何平均数(G-mean)等关键指标上均显著优于使用基线数据表示的模型。这证实了IMTS表示能够更有效地保留和呈现多变量数据中固有的空间结构与时间上下文信息,为后续的特征学习提供了更优越的底层数据基础。具体来说,IMTS通过其矩阵结构,将不同物理位置(空间维度)的变量在连续时间点(时间维度)上的读数有机组织起来,使得模型能够更直观地“看到”变量间伴随时间变化的协同或异步模式,这对于识别特定的故障签名至关重要。
2. MCNN-LSTM架构的时空特征提取能力
在确定了IMTS数据表示后,研究重点评估了所提出的MCNN-LSTM混合架构的性能。研究人员将其与一系列先进的深度学习模型进行了比较,包括但不限于:纯LSTM网络、纯CNN网络(如一维CNN、二维CNN)、CNN与LSTM的简单串联或并联模型,以及其他用于时序分类的经典模型。消融实验也被用于分析MCNN模块和LSTM模块各自的作用。结果显示,完整的MCNN-LSTM模型在故障诊断任务上取得了最佳性能。消融实验表明,当移除MCNN模块,仅使用LSTM时,模型对某些空间耦合特征明显的故障(如多个温度测点同时异常)的识别率下降;反之,当移除LSTM模块,仅使用MCNN时,模型对具有强时间演化规律的故障(如振动幅值缓慢增长)的敏感度降低。这证明了MCNN模块擅长提取跨变量的、反映系统全局状态的“空间”关联特征,而堆叠LSTM模块则擅长捕捉局部和长期的时间依赖模式。两者通过特征对齐与融合机制进行整合,实现了“1+1>2”的效果,使模型能够学习到判别力更强的时空融合特征,从而全面应对各类故障模式。
3. 改进损失函数对不平衡数据的处理效果
针对SCADA数据不平衡的核心挑战,研究提出了改进的加权交叉熵损失函数,并与标准交叉熵损失、常见的类别加权交叉熵损失以及焦点损失(Focal Loss)等进行了对比。改进的损失函数创新性地引入了基于核密度估计的样本概率作为正则化权重。该权重能够自动评估每个训练样本的“难度”及其所属类别的“稀有度”,并对少数类样本和分类难度大的样本赋予更高的权重。实验结果表明,在使用相同MCNN-LSTM模型和IMTS数据的情况下,采用改进损失函数进行训练,模型在所有故障类别上的召回率(Recall)得到了更为均衡的提升,特别是那些样本数量最少的故障类别,其检测精度改善最为明显。与此同时,模型的整体精度(Accuracy)和宏平均F1分数也获得了同步提高。这表明,所提出的损失函数有效地缓解了类别不平衡带来的负面影响,引导模型在不过度牺牲多数类精度的情况下,显著加强了对少数类样本的特征学习与分类决策能力,从而提升了模型的整体泛化性能和实用价值。
结论与讨论
本研究针对风力发电机SCADA数据存在的类别不平衡和时空特征提取困难的问题,提出了一套协同优化的故障诊断解决方案。通过设计集成多变量时间序列(IMTS)表示法,为模型提供了同时蕴含空间拓扑与时间演化的高质量数据输入。所构建的层次化MCNN-LSTM模型,创新性地融合了多尺度卷积神经网络(MCNN)在提取跨变量空间关联特征方面的优势,以及长短期记忆网络(LSTM)在建模时序依赖关系方面的特长,实现了对复杂故障时空特征的深度挖掘。进一步提出的改进加权交叉熵损失函数,通过核密度估计自适应调整样本权重,有效引导模型关注少数类和难分类样本,缓解了数据不平衡对模型性能的制约。
在真实风电场SCADA数据集上的综合实验表明,该方法显著超越了多种现有对比方法,取得了宏平均F1分数0.943和几何平均数0.942的优异性能,证明了其在提升风机故障诊断准确性、特别是少数故障类检测率方面的有效性和先进性。该研究的意义在于,它不仅为不平衡SCADA数据下的风机故障诊断提供了一个高性能、可操作的深度学习框架,更重要的是,其“数据表示-模型架构-损失函数”协同优化的思路,对解决其他工业设备监测领域中类似的数据不平衡与复杂特征提取问题,也具有重要的方法论参考价值。将物理系统的空间拓扑知识嵌入数据表示,并利用混合神经网络捕捉其动态演化,代表了数据驱动工业智能向更精细、更可靠方向发展的一个有益探索。未来工作可考虑将该框架扩展到更广泛的故障类型、不同的风机型号,并探索其在边缘计算设备上的轻量化部署,以推动研究成果向工程实际应用的进一步转化。