基于深度强化学习的后预后决策框架:考虑不完美维护与信息价值的系统寿命优化策略

【字体: 时间:2025年07月20日 来源:Array 2.7

编辑推荐:

  为解决多组件系统在不确定RUL预测和不完美维修条件下的维护决策难题,研究人员开发了集成DRL和VoI的PPDM框架。该研究通过贝叶斯推理量化维修效果不确定性,结合LSTM网络构建MDP模型,实现了考虑维修次数的动态维护调度,实验证明系统寿命可延长60天。该框架首次实现维修后RUL预测,为工业PHM提供了可解释的决策支持。

  

在工业设备健康管理(PHM)领域,如何基于剩余使用寿命(RUL)预测制定最优维护计划一直是困扰工程师的核心难题。传统方法面临三大瓶颈:一是维修效果具有不确定性,特别是"不完美维修"介于"完好如新"(AGAN)和"完全失效"(ABAO)之间的灰色地带;二是多组件系统存在维修资源竞争;三是传感器数据获取成本高昂。这些问题导致维护决策要么过于保守造成资源浪费,要么过于冒险引发系统故障。

为突破这些限制,研究人员构建了创新的后预后决策(PPDM)框架。该研究首次将深度强化学习(DRL)与信息价值(VoI)理论相结合,开发出能自主权衡"观察成本"与"决策收益"的智能系统。通过铝制开口试件疲劳实验验证,该系统在60天规划期内将结构寿命延长了88%,同时减少83%的不必要检测。

关键技术包括:1)基于隐半马尔可夫模型(HSMM)的RUL概率预测;2)蒙特卡洛 dropout技术实现的认知-随机不确定性分解;3)近端策略优化(PPO)算法驱动的多组件决策;4)LSTM网络构建的时序特征提取器;5)贝叶斯推理量化维修效果分布。实验采用12组疲劳试件数据,包含4种维修状态下的声发射监测数据。

【特征提取与预后建模】
通过深度软单调聚类(DSMC)将原始声发射信号转换为健康指标,HSMM模型输出RUL的95%置信区间。关键突破在于建立维修次数与恢复效果的数学关系:第n次维修的恢复均值服从μn=0.67×exp(-0.7n),该参数通过马尔可夫链蒙特卡洛(MCMC)采样获得。

【决策概率映射】
创新性地将总不确定性H分解为认知不确定性H[p(y|x)]和随机不确定性E[H(p(y|x))]。当决策概率低于阈值pthresh=0.6时,系统输出"N/A"建议人工介入,这种风险规避机制使错误决策率降低42%。

【信息价值优化】
VoI模型通过LSTM网络预测未来10天的预期信息增益。当VoI<0时自动跳过检测,在测试案例中减少了88.3%的数据采集次数。实验显示,在维修前3天VoI会骤增,触发系统主动请求检测数据更新决策。

【多组件调度】
采用动作掩码技术处理维修槽位约束,将3N维动作空间压缩为N个独立softmax输出。在4组件测试中,智能体学会"捆绑维修"策略,将平均维修间隔从7.2天缩短至4.5天,维修成本降低31%。

这项研究为工业PHM领域带来三大革新:首先,首次实现维修后RUL的定量预测,突破传统"维修即重置"的简化假设;其次,通过不确定性分解使DRL决策具备可解释性,关键决策均附带概率评估;最后,VoI机制大幅降低物联网设备的监测能耗。论文提出的框架已成功应用于飞机发动机维护验证,下一步将拓展至风电叶片等大型复合材料结构监测。《Array》期刊评审专家认为,该研究"为不确定环境下的维护决策设立了新标准"。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号