在预测不确定性下的轴承健康管理中基于风险敏感度的联合库存维护策略：一种考虑不确定性的深度强化学习方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Scientific Reports》：Risk-sensitive joint inventory-maintenance strategy for bearing health management under prognostic uncertainty: an uncertainty-aware deep reinforcement learning approach

【字体：大中小】 时间：2026年06月14日 来源：Scientific Reports 3.9

编辑推荐：

　　摘要传统上，库存管理与预测性健康管理（PHM）是分开处理的，这往往会导致资源分配不当。虽然深度强化学习（DRL）为联合决策提供了有希望的解决方案，但标准智能体通常将预测性健康管理的预测结果视为确定的真实值。然而在现实场景中，剩余使用寿命（RUL）的预测本质上存在随机误差。忽视这种

摘要

传统上，库存管理与预测性健康管理（PHM）是分开处理的，这往往会导致资源分配不当。虽然深度强化学习（DRL）为联合决策提供了有希望的解决方案，但标准智能体通常将预测性健康管理的预测结果视为确定的真实值。然而在现实场景中，剩余使用寿命（RUL）的预测本质上存在随机误差。忽视这种不确定性会导致智能体制定出无法应对低预测置信度时突发故障的风险盲策略。为解决这一问题，本文提出了一种考虑不确定性的协同自适应库存策略。首先，我们采用蒙特卡洛dropout方法引入贝叶斯不确定性量化机制，不仅能估算RUL值，还能确定其预测方差。其次，为克服智能体的短视行为，设计了新型的不对称成本感知奖励塑造机制。通过策略性地分离训练和评估阶段的奖励函数——具体而言是在训练期间加入安全库存惩罚并降低持有成本——引导智能体建立能够抵御供应链不确定性的强大库存缓冲机制。仿真结果表明，所提出的风险敏感型PPO策略显著优于确定性基准策略，在高噪声环境下可将总成本降低40.3%。

联系信箱：

粤ICP备09063491号

摘要

热点排行