《Results in Engineering》:A Three-Level Hierarchical Fault Diagnosis Framework for APS Mechatronic Systems with Adaptive Bayesian Root-Cause Analysis
编辑推荐:
本研究提出了一种面向执行器-被控对象-传感器(APS)机电系统的三级诊断框架,在低延迟监测与面向维护的根因分析(RCA)之间建立了单一可追溯的关联管道。第一级执行基于多元测量信号的二元故障检测;第二级在报警确认后估计可解释的故障描述符(Ft
本研究提出了一种面向执行器-被控对象-传感器(APS)机电系统的三级诊断框架,在低延迟监测与面向维护的根因分析(RCA)之间建立了单一可追溯的关联管道。第一级执行基于多元测量信号的二元故障检测;第二级在报警确认后估计可解释的故障描述符(Ft, L),其中Ft表示故障类型、L∈{传感器, 执行器, 被控对象}表示故障位置;第三级激活相应故障树分支,并基于概率的优先级数(PN)对物理上合理的候选原因进行排序。针对静态RCA的局限性,研究人员通过人机协同(HITL)维护反馈更新PN排序,采用Beta-伯努利确认模型进行先验校准,并采用拉普拉斯/狄利克雷平滑似然精化。该框架在UR5e协作机械臂上进行了验证,采用实时数据交换(RTDE)以125 Hz采集的标称数据校准并验证MATLAB/Simulink数字模型,再通过受控故障注入生成第一、二级的标注故障数据。研究人员采用一致的离线与在线预处理流程及窗口化时频特征,对多种轻量级分类器进行了基准测试。其中,随机森林(RF)在分布内达到99.60%的第二级准确率,在轨迹和故障参数均发生偏移的完全未见过数据集上达到93.21%,同时保持近乎完美的第一级检测性能(准确率99.95%、召回率100%)。示例性的RCA案例展示了PN排序在确认维护结果后的演化过程。总体而言,所提出的框架通过集成基于数字模型的故障学习与自适应概率RCA,为APS诊断提供了一条可解释且面向部署的路径。
本研究针对工业4.0/5.0背景下紧密耦合的机电系统故障诊断难题,提出了一种三级层次化诊断框架,相关成果发表于《Results in Engineering》。
研究背景方面,现代智能制造(SM)日益依赖执行器-被控对象-传感器(APS)闭环耦合的机电设备,这种紧密集成在提升生产效率和灵活性的同时,也放大了系统对故障的脆弱性。传感器偏置、执行器退化及控制异常等故障不仅影响单一信号,还会通过闭环反馈链条传播,在多个测量通道产生关联异常,导致故障隔离困难。现有故障检测与诊断(FDD)方法存在两大突出问题:一是数据驱动的机器学习方法普遍面临"可解释性鸿沟",复杂模型难以提供物理上可理解、维护上可操作的诊断依据;二是工业场景尤其是多轴机械臂领域,真实故障数据稀缺,且许多概率RCA层仍采用静态模型,无法随设备老化、工况变化和维修干预而自适应更新。因此,亟需一种将低延迟监测与维护导向RCA相集成的可追溯诊断框架。
研究人员开展的研究工作主要包括:建立涵盖传感器、执行器、被控对象三类故障的参数化故障库;在验证后的UR5e数字模型中进行安全故障注入,生成用于第一、二级训练的标注数据集;设计由轻量级分类器驱动的两级监测层,以及基于贝叶斯更新的自适应第三级RCA层。研究得出的核心结论是:随机森林模型在分布内和分布外场景中均表现出最优的检测与解耦性能,自适应PN机制能够通过维护反馈逐步校准先验概率并精化似然函数,使RCA排序从专家初始化向设备特异性证据过渡。该研究的重要意义在于首次将验证数字模型故障学习与三级层次诊断及自适应概率RCA相集成,为工业机电系统提供了兼顾实时性、可解释性与维护可操作性的完整诊断路径。
关键技术与方法:本研究以UR5e协作机械臂为对象,通过RTDE接口以125 Hz采集物理机器人执行拾放轨迹时的多元信号,采用欧拉-拉格朗日方程建立高保真MATLAB/Simulink数字模型,并以均方根误差(RMSE)、平均绝对误差(MAE)和最大绝对误差(MaxAE)等指标验证模型可信度。故障数据集完全通过验证后的数字模型离线注入生成,故障参数和 onset 时间在设定范围内随机化。预处理采用滑动窗口(W=30样本、步长H=10样本)时频特征提取,结合z-标准化和基于训练集的统计参数固定。分类器基准测试涵盖决策树(DT)、随机森林(RF)、支持向量机(SVM,RBF核)和k近邻(KNN),通过5折交叉验证进行模型选择。第三级RCA采用故障树结构化知识库,结合Beta-伯努利确认模型更新分支先验,以及拉普拉斯/狄利克雷平滑更新描述符-原因似然,实现优先级数(PN)的自适应递归更新。
研究结果部分:
第一级与第二级性能评估——分布内性能
研究人员在分布内数据集上评估了四种分类器的故障检测与解耦性能。第一级二元检测任务中,随机森林达到100%测试准确率,决策树为98.03%,支持向量机和k近邻则较低。第二级在故障窗口中预测结构化描述符(F
t, L),随机森林以99.60%的准确率和99.66%的宏平均F1显著领先,决策树次之(98.60%准确率)。混淆矩阵分析表明,残余混淆主要存在于传感器相关故障之间,如偏置与校准误差、漂移与校准误差等具有相似短时统计模式的情况。这说明当前基于短时窗口的时频特征集对检测和粗粒度解耦有效,但相关度高的传感器故障仍需更长时序上下文或残差信息提升可区分性。
第一级与第二级性能评估——未见场景的泛化
为评估分布偏移下的鲁棒性,研究人员采用完全未参与训练的超参数调优的未见数据集进行测试,该数据集包含两个额外拾放轨迹以及偏移的故障参数和 onset 时间。第一级中,随机森林保持99.95%准确率和100%召回率,决策树亦为99.63%准确率;支持向量机和k近邻召回率仍为100%但准确率下降,表明主要表现为假报警增多而非漏检。第二级中,随机森林保持最优表现(93.21%准确率、90.43%宏平均F1),决策树和支持向量机居中,k近邻下降最多。分析表明,随机森林对特征分布变化具有最佳容忍度。同时,研究人员量化了算法确认延迟:第一级约0.32秒,第二级约0.40-0.56秒,该延迟通过持久性参数(n=2, m∈{3,5})换取决策稳定性,且特征计算与模型推理耗时(毫秒级)远小于步长时间(80毫秒),满足准实时部署需求。
第三级:自适应概率根因分析
第三级将确认的描述符(F
t, L)映射为维护导向的根因假设。研究人员以两个UR5e分支实例说明PN计算与更新机制。执行器硬超调分支初始候选原因包括功率级短路(C1)、指令饱和/软件限位错误(C2)、故障限位开关/安全逻辑(C3)和编码器未对准(C4),初始PN分别为40.0、30.0、20.0、10.0。当维护确认C2为真实原因后,通过Beta-伯努利更新(s2←s2+1),C2的先验概率上升,下一事故的PN变为C1和C2各36.36、C3为18.18、C4为9.09,概率向确认原因适度转移。传感器校准误差分支中,候选原因包括错误模型/工具参数加载(C1)、校准程序不正确(C2)、参数文件未更新或损坏(C3),初始PN为47.37、36.84、15.79;确认C2后,PN更新为42.22、43.75、14.06,单次确认即可重排前两位假设顺序,对配置相关故障频发的工业场景具有实用价值。这些分支级演示说明了自适应机制在低数据条件下的稳定性与可操作性。
讨论与结论部分概述
研究人员指出,该框架作为面向APS机电系统的一般性诊断方法,其层次化组织通过检测→定位/类型→排序原因的递进结构,改善了单一阶段诊断的可操作性和可审计性。验证数字模型解决了真实故障数据稀缺和安全顾虑,但需明确该模型属于"验证数字模型"而非完全部署的数字孪生,因其未实现物理设备与虚拟模型的持续双向同步。自适应RCA机制通过显式的Beta-伯努利先验更新和拉普拉斯/狄利克雷似然精化,使PN排序能从专家初始化向设备特异性证据透明过渡,但当前的演示属于机制级验证,尚未获得大规模现场维护数据的定量确认。
研究亦存在若干边界与局限:其一,故障库集中于单故障场景,未涵盖多故障共存、控制器/软件异常、通信故障及碰撞所致结构损伤等复杂情形;其二,第三级RCA质量内在依赖于第二级描述符的可靠性,而传感器故障间的残余混淆仍是描述符模糊性的来源;其三,当前验证属于混合评估设置,完全现场验证仍需物理故障事件或长期运行数据。未来工作将聚焦于真实运行条件下的端到端验证、多故障与软件相关故障的扩展,以及RCA排序收敛性与维护决策准确率的定量评估。
研究结论指出,所提出的框架通过集成验证数字模型故障学习、三级层次诊断与自适应概率RCA,为APS机电系统提供了兼具可解释性、实时性与维护可操作性的实用诊断路径,人机协同反馈机制使根因排序能够随累积证据渐进优化,为工业智能维护提供了透明且可部署的技术途径。