基于强化学习的变速箱故障诊断策略,该策略结合了平衡的奖励机制和成本-均衡采样方法

《ADVANCED ENGINEERING INFORMATICS》:A fault diagnosis strategy for gearboxes based on reinforcement learning with balanced reward and cost- equilibrium sampling

【字体: 时间:2025年10月11日 来源:ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐:

  针对数据不平衡的齿轮箱故障诊断问题,提出RLM-CSBR模型,通过多级卷积网络提取特征、成本均衡矩阵优化经验回放、动态奖励机制平衡探索与利用,提升诊断准确性和效率。

  在工业设备中,齿轮箱作为关键部件,承担着传动和承载负荷的重要功能。其运行状态直接关系到整个系统的性能和可靠性。然而,长期运行和复杂的工作环境使得齿轮箱容易发生诸如磨损、疲劳裂纹等故障,从而对设备的安全性构成威胁。一旦发生故障,设备往往会停机,导致获取故障数据的途径受限。此外,在实际应用中,收集和标注机器故障数据通常需要耗费大量人力和时间。获取涵盖所有工况条件的足够标注数据并具有精确健康信息仍然是不现实的,因此导致了数据集的不平衡、样本数量较少,甚至出现缺失故障数据的现象。这种现象使得基于数据驱动的**人工智能**(AI)诊断模型在训练过程中倾向于关注多数类的正常状态样本,而对少数类的故障状态样本在特征学习方面存在明显不足,最终导致模型在故障诊断任务中出现显著偏差。因此,基于不平衡数据进行齿轮箱故障诊断具有重要意义,有助于确保设备的安全、可靠运行以及工业过程的监控。

目前,数据不平衡故障诊断主要采用两种主流方法:一种是在数据层面进行类重平衡,另一种则是在算法层面优化以增强少数类样本的信息。前者通常分为过采样、欠采样和数据增强三种方式。过采样通过在少数类样本及其邻近样本之间进行插值,生成新的样本。例如,Jin等人[3]提出的**合成少数过采样技术**(SMOTE)处理了不平衡的轴承振动信号,从而降低了数据不平衡对模型诊断的影响。然而,过采样数据可能与原始数据过于相似,导致模型容易出现过拟合。欠采样主要通过移除多数类样本的一部分来实现。Meng等人[4]结合随机欠采样和滑动分割技术,重构了一个平衡的数据集,并使用集成学习进行分类。但这种方法存在丢失关键特征样本的风险,使模型对噪声和异常值更加敏感。数据增强则指的是通过旋转、裁剪、添加噪声等操作来扩展原始数据集的规模。其核心目的是提升后续机器学习模型的泛化能力。例如,Zhang Wei等人[5]利用**生成对抗网络**(GAN)学习噪声与真实机械振动数据之间的映射关系,生成模拟样本以扩充数据集,从而解决滚动轴承故障诊断中的数据不平衡问题。然而,增强后的数据可能仅在“表层分布”上接近真实数据,却无法保留特定故障独有的关键语义特征。

尽管数据层面的重平衡方法在一定程度上有助于提升分类性能,但重平衡后的数据可能会引入无用信息或丢失重要特征信息。相比之下,算法层面的重平衡方法可以避免因数据重平衡预处理而造成的冗余或信息损失,从而通过改进学习算法或训练方案有效解决数据不平衡问题。Lin Lin等人[6]提出了一种结合一类支持向量机和随机森林的混合分类器,有效缓解了故障训练样本不足的问题。Duan等人[7]设计了一种深度聚焦并行卷积神经网络和自适应交叉熵损失,专注于难以分类的少数样本的训练,减少了冗余样本的计算负担。Pan等人[8]开发了一种鲁棒平滑约束矩阵机器模型,通过动态调整损失项因子,增强了不平衡类的识别性能,并引入了RoBoSS损失以减少噪声的影响。值得注意的是,大多数当前的算法层面方法仍然通过被动学习模式来拟合样本与标签之间的映射关系。具体而言,当少数类样本数量较少或数据受到噪声干扰时,样本与标签之间的映射关系将变得模糊,进而导致模型容易出现欠拟合(未能充分学习少数类特征)或过拟合(过度拟合噪声特征)的问题。

无论是数据层面还是算法层面的数据不平衡学习方法,目前都没有使模型能够实现对不平衡数据的主动学习。相反,这些方法仅通过数据增强或调整学习策略来被动消除或缓解不平衡数据对模型训练的负面影响。此外,齿轮箱故障信号样本不仅面临数据不平衡的问题,其底层故障特征的分布也会随着工况的变化而变化。然而,缺乏探索能力直接限制了模型在少数类识别任务中的适应性和智能决策能力。**深度强化学习**(DRL)结合了深度学习的强大表征能力和强化学习的人类推理能力,被认为将成为构建真正人工智能的核心基础。其优势在于使智能体能够通过与数据环境的持续动态交互获取外部信息,并基于试错机制学习当前诊断任务的最优或次优决策策略。这一特性为数据不平衡故障诊断在数据和算法层面的协同优化提供了全新的技术解决方案。Wang Zisheng等人[9]提出了一种结合一维卷积深度强化学习和改进的actor-critic算法的智能故障识别方法,以提升深度学习模块的分类精度,并实现对原始数据的自主知识提取。Qin等人[10]提出了一种对比增强的深度强化学习(DRL)框架,通过计算样本对的对比损失来训练特征提取模型,并使用自适应奖励函数来平衡对不同类型数据的关注。Dai等人[11]利用DRL控制带通滤波器,选择信号噪声比最高的频率带,从而提升了故障诊断效果。Wen等人[12]构建了一种基于强化学习的卷积神经网络学习率调度器,实现了高效和自动的学习率调整。Zhang Wenfeng等人[13]将DRL与贪心搜索结合,选择最佳结构,大大降低了诊断计算成本,同时保持了诊断精度。Wang Hui等人[14]采用同步提取变换和**深度Q网络**(DQN)实现了行星齿轮箱的智能诊断,提升了诊断的泛化能力。

在实际的工业应用场景中,以“大量健康样本和少量故障样本”为特征的数据不平衡问题对端到端DRL模型的训练和工程应用提出了多维度的挑战。具体而言,这些挑战体现在两个方面:首先,这种不平衡引导DRL智能体优先学习多数类(正常)样本的特征,导致其在少数类(故障)样本的决策和判别能力显著下降;其次,它触发了“数据标注-模型迭代”的恶性循环,导致模型性能的验证不足,决策可信度降低,从而增加了DRL模型在工程实施中的难度。近年来,许多学者致力于探索在数据不平衡环境下应用DRL方法,以提升模型的自主故障识别能力。Yan等人[15]利用Transformer集成的条件Wasserstein GAN和DRL合成和筛选高质量的故障数据样本。Fan等人[16]针对类别不平衡问题,通过马尔可夫决策过程解决了样本选择的非判别性优化问题,并提出了基于DRL的通用不平衡样本选择策略。Cui等人[17]改进了深度确定性策略梯度算法,构建了基于ResNet的actor网络和基于AlexNet的critic网络,并将其应用于轴承故障诊断。Kang等人[18]提出了基于K-means的深度强化学习奖励函数,用于不平衡数据。但这种方法通常存在“奖励惩罚幅度过小”的问题,特别是在故障类别样本极度稀缺的情况下,靠近其聚类中心的样本可能得不到足够的智能体关注。Lin Enlu等人[19]建立了一种基于DQN的不平衡分类模型。Yang等人[20]利用参数迁移构建了DRL框架,并重新设计了奖励函数,使智能体能够从不平衡样本中提取有价值的特征;然而,这种方法并未根据数据不平衡程度对奖励进行定量调整。Lu等人[21]引入了一种增强的主动学习方法,用于处理滚动轴承的类别不平衡问题,结合了密度聚类和基于高斯混合模型的欠采样技术。Daugut等人[22]设计了一种增强的DRL模型,用于预测复杂航空系统中的罕见故障。Zhao等人[23]引入了一种基于对比增强DRL的两阶段自适应故障诊断框架。Cui和He等人[24]提出了一种基于自适应数据分布的通用智能体,用于处理长尾故障诊断的挑战。He等人[25]将简单的对比学习与改进的优先经验回放结合,用于非理想数据场景下的机械故障定量诊断,但这种方法对数据质量和数量提出了相对较高的要求,同时对噪声的容忍度较低。Kang等人[26]建立了一种双经验池的深度强化学习模型,并构建了并行双残差网络以提取不平衡数据下滚动轴承的故障特征。尽管上述文献中提到的DRL方法在解决数据不平衡故障诊断问题方面展现出了良好的效果,但它们仍然存在一些显著的共同局限性:大多数方法依赖于传统深度网络架构,这些架构是通过“样本-标签被动映射”预训练得到的,并基于此类架构进行数据重平衡训练。本质上,这些方法既没有突破被动学习框架的限制,也没有充分激活DRL内在的自主探索能力,导致无法充分发挥其技术优势。

具体而言,当前在不平衡数据环境下进行故障诊断的DRL方法仍然面临三个核心挑战:(1)模型的诊断能力受到样本数量和质量的双重限制,难以有效提取完整、关键的特征信息,导致特征提取效率低下;(2)智能体在少数类故障样本的探索和多数类正常样本的利用之间难以取得平衡,此外,样本选择过程未能体现出样本价值的差异,使得同步和最优识别少数类和多数类样本变得不可行;(3)手动设计的奖励函数通常需要领域专业知识作为前提,并且缺乏鲁棒性,容易受到数据分布波动的影响。这在很大程度上限制了其在复杂工业环境中,特别是多干扰和多故障类型环境下的适用性。为了解决上述问题,本文提出了一种创新的**基于成本均衡采样和平衡奖励的强化学习模型**(RLM-CSBR),从特征表示、数据层面和奖励学习算法层面同时解决齿轮箱故障诊断中的类别不平衡问题。在特征层面,构建了**多尺度卷积深度集成Q网络**(MCDIQN)以提取类别不平衡样本的判别特征。在数据层面,设计了一种结合成本均衡矩阵和**时间差分**(TD)误差的**优先经验回放**(PER)机制,以提升从少数类学习中生成的高价值经验的利用效率。在策略层面,设计了平衡奖励策略,以增强模型对少数类样本的敏感性,同时确保多数类样本的利用效率。本文的主要研究贡献如下:

(1)MCDIQN被精心构建,以从不平衡数据中提取全面且深入的特征。它包括三个核心模块:**多尺度瓶颈卷积网络**(MBCN),该模块能够进行多尺度特征提取,以增强输入信号对异常值的鲁棒性;**三元组注意力机制**(TAM)模块,该模块增强了关键故障特征之间的相关性,并减轻了高维特征引起的过拟合问题;以及**多尺度特征调整融合**(MFAF)模块,该模块优化了故障特征的表示,提升了特征对故障类别的判别能力。

(2)通过利用不同故障类别之间的**样本缺失率**(SMR)来设计一种新颖的平衡奖励策略。SMR被定义为特定故障类别中缺失样本的数量与正常状态类别样本数量的比率。该策略从定量角度增强了RLM对每个少数类的敏感性。通过结合数据不平衡指标,该策略实现了动态奖励缩放机制。当少数类样本数量较少时,该策略可以避免对其过度强调,从而确保奖励分布的平衡。在少数类样本数量较多的情况下,该策略可以进一步增强模型对不完整数据的主动探索能力,通过放大奖励或惩罚的强度来实现。

(3)为了提升基于DRL的故障诊断中样本的利用效率,将**成本均衡矩阵**集成到TD误差的优先经验回放机制中。通过这种方式,模型可以在训练过程中自适应地优先选择从关键少数类样本中学习到的高价值经验。

需要强调的是,RLM-CSBR模型的训练过程并不依赖于传统的损失函数来建立样本输入与标签之间的被动映射关系;相反,通过引入自适应奖励函数,模型有效地引导智能体在不平衡数据环境中进行自主探索,从而摆脱了传统监督学习中固有的被动学习范式。本文的其余部分组织如下:第3节简要介绍了**双重深度Q网络**(D3QN)故障诊断策略的理论背景。第2节和第3节分别提供了所提出的RLM-CSBR模型的关键技术和其用于故障诊断的框架。第5节提供了两个实验研究以验证所提出方法的性能。最后,第6节总结了本文的内容。

在本文中,D3QN故障诊断策略完全继承了双重DQN抵抗Q值高估的机制。该模型不仅显著提高了价值估计的精度和网络训练的稳定性,还进一步通过其独特的对抗结构优化了状态信息的利用效率。该结构能够快速评估当前状态值,而无需遍历所有动作,最终实现了对估计精度和学习能力的双重提升。

在不平衡数据环境中,准确的特征感知是RLM实现高效决策的核心前提。为了解决这一关键挑战,MCDIQN被设计为能够自主关联类别不平衡样本中的多级特征,同时捕捉低级细节特征和高级全局特征,从而有效增强了模型从不平衡数据中提取高价值故障信息的能力。MCDIQN的结构包括多个层次的卷积网络,以实现深度集成和多尺度特征提取。

在构建基于成本均衡采样和平衡奖励的强化学习模型时,数据不平衡的核心矛盾表现为少数类模式缺乏判别特征、样本分布不平衡以及模型偏差,这些都需要通过数据、模型和策略三个层面的方法协同解决。为此,本文构建了RLM-CSBR模型,并将其应用于在不同工况条件下具有不平衡数据的齿轮箱故障诊断任务。其整体架构如图3所示。该模型采用了一种新颖的优先经验回放机制,结合成本均衡矩阵和时间差分误差,以提升模型在训练过程中对关键少数类样本所学高价值经验的优先选择。此外,模型还设计了基于样本缺失率的平衡奖励策略,以增强对少数类样本的敏感性,同时确保多数类样本的利用效率。这种策略通过动态奖励缩放机制,使模型在不同数据不平衡程度下能够灵活调整奖励的大小,从而实现对少数类样本的更充分关注。

本文提出的RLM-CSBR模型在多个方面展现了显著的技术优势。首先,通过多尺度瓶颈卷积网络,模型能够有效提取多尺度特征,从而提升对异常值的鲁棒性。其次,三元组注意力机制的引入增强了关键故障特征之间的相关性,减少了高维特征带来的过拟合风险。最后,多尺度特征调整融合模块优化了故障特征的表示,使模型能够更准确地识别故障类别。这些模块的协同作用使得RLM-CSBR在不平衡数据环境下的故障诊断能力得到了全面提升。

此外,本文提出的平衡奖励策略具有较强的灵活性和适应性。通过样本缺失率的计算,该策略能够动态调整奖励的幅度,使得在少数类样本数量较少时,不会对其过度强调,从而确保奖励分布的平衡。而在少数类样本数量较多的情况下,该策略可以进一步增强模型对不完整数据的主动探索能力,通过放大奖励或惩罚的强度来实现。这种机制不仅提高了模型对少数类样本的关注度,还确保了多数类样本的有效利用,从而在整体上提升了模型的诊断能力。

为了进一步验证所提出方法的有效性,本文在Qpzz-II齿轮箱实验数据上进行了实验研究。实验数据采集于Qpzz机械故障模拟实验系统,该系统主要由可调速驱动电机、齿轮箱、轴承和磁粉离合器制动器组成。齿轮箱被预设为五种不同的健康状态:正常(N)、点蚀故障(P)、断齿故障(B)、磨损故障(W)以及点蚀和磨损复合故障(P&W)。通过调整电机速度和制动电流,可以控制旋转速度和负载条件。实验数据涵盖了不同工况下的齿轮箱运行状态,为模型的训练和评估提供了丰富的数据支持。

在实验过程中,模型的性能通过多个指标进行评估,包括分类准确率、召回率、精确率和F1分数。实验结果表明,RLM-CSBR模型在处理不平衡数据时表现出了优于传统方法的性能。与仅使用传统损失函数的模型相比,RLM-CSBR在不平衡数据环境下的分类准确率提高了约15%,召回率提升了约20%,同时在保持多数类样本利用效率的前提下,对少数类样本的识别能力也得到了显著增强。这些结果验证了本文所提出方法在实际应用中的有效性。

此外,本文还对模型的鲁棒性进行了测试。通过在不同噪声水平下对模型进行训练和评估,结果表明RLM-CSBR模型对噪声具有较强的容忍能力。与传统方法相比,其在高噪声环境下的分类准确率下降幅度较小,表现出更高的鲁棒性。这表明所提出的模型在复杂工业环境中具有更强的适应性和稳定性。

本文的研究成果不仅对齿轮箱故障诊断具有重要意义,还为其他类型的不平衡数据问题提供了可借鉴的解决方案。通过结合多尺度特征提取、三元组注意力机制和成本均衡矩阵,RLM-CSBR模型能够在不平衡数据环境中实现高效的特征感知和决策能力。此外,基于样本缺失率的平衡奖励策略为模型提供了一种灵活的训练机制,使得模型能够根据数据不平衡程度动态调整奖励的大小,从而提升对少数类样本的关注度。这些技术的结合使得RLM-CSBR模型在不平衡数据环境下的故障诊断能力得到了全面提升。

在实际应用中,RLM-CSBR模型可以用于多种类型的工业设备故障诊断任务。例如,该模型可以应用于轴承故障诊断、滚动轴承故障诊断、行星齿轮箱故障诊断等。通过调整模型的参数和训练策略,可以使其适应不同的工况条件和故障类型,从而实现更广泛的适用性。此外,该模型还可以与其他机器学习方法相结合,以进一步提升故障诊断的精度和效率。例如,可以将RLM-CSBR与集成学习、对比学习等方法结合,形成更加复杂的故障诊断框架。

综上所述,本文提出的RLM-CSBR模型在处理不平衡数据环境下的故障诊断问题方面展现出了显著的技术优势。通过多尺度特征提取、三元组注意力机制和成本均衡矩阵的结合,模型能够在不平衡数据中实现高效的特征感知和决策能力。此外,基于样本缺失率的平衡奖励策略为模型提供了一种灵活的训练机制,使其能够根据数据不平衡程度动态调整奖励的大小,从而提升对少数类样本的关注度。这些技术的结合使得RLM-CSBR模型在不平衡数据环境下的故障诊断能力得到了全面提升。本文的研究成果不仅对齿轮箱故障诊断具有重要意义,还为其他类型的不平衡数据问题提供了可借鉴的解决方案。通过引入自适应奖励函数和优先经验回放机制,RLM-CSBR模型能够实现对不平衡数据的主动学习,从而摆脱传统监督学习的被动学习范式。这在很大程度上提升了模型的智能决策能力和适应性,使其在复杂工业环境中具有更强的适用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号