深度强化学习在考虑设备退化情况下的生产线维护最优规划中的应用

《RELIABILITY ENGINEERING & SYSTEM SAFETY》：Deep reinforcement learning for optimal planning of production line maintenance with deterioration

【字体：大中小】 时间：2025年10月10日 来源：RELIABILITY ENGINEERING & SYSTEM SAFETY 11

编辑推荐：

　　本研究针对半导体制造中预防性维护（PM）优化难题，构建了包含多台机器和缓冲区的串行生产系统模型，提出基于平均奖励深度强化学习（DRL）的维护策略。通过离散事件仿真（DES）模拟实际生产数据，将产品质量退化、缓冲区水平及机器运行状态纳入决策变量，解决传统固定周期维护导致的效率损失问题。实验表明，所提出的DRL策略相比现行时间基PM政策提升3.72%吞吐量，并减少45.6%维护频次，同时优化了缓冲区利用率。研究填补了质量退化与多状态交互的PM建模空白，为工业物联网环境下的动态决策提供新范式。

　　在现代制造业中，实现高生产质量与减少预防性维护（PM）停机造成的生产损失之间的平衡仍然是一个持续存在的挑战。制定一个理想的维护策略，以优化维护活动的时间安排，对于最大化整体生产吞吐量并确保高质量产品至关重要。本研究聚焦于全球领先的半导体制造商Nexperia的后端封装阶段，探讨如何在实际工业环境中优化维护策略。该封装过程由三阶段组成：（1）芯片键合，（2）线键合，（3）封装。这些阶段在一系列相互连接的机器上执行，形成了一个流畅的生产流程。本研究关注的是封装机器，它是生产线的末端，通过注入液体封装材料来固定IC。为了保持高质量的生产，需要定期进行模具清洁（MC），以去除残留的材料。目前，这种清洁操作遵循固定的时间表，未考虑实时的质量退化或系统条件。忽视这些因素可能导致因更频繁或时机不佳的清洁周期而增加生产损失。此外，对最后一台机器的维护可能引发上游阻塞，进一步影响系统性能。

在之前的文献中，Geurtsen等人已经研究了生产线上最后一台机器的维护策略。他们的方法基于缓冲区水平和生产状态来规划维护，但未考虑模具退化对产品质量的影响。本研究在此基础上引入了产品质量退化作为核心决策变量，利用实际生产数据量化其影响。本研究的特殊之处在于其基于一个真实的工业挑战，使用Nexperia后端封装线上的实际生产数据和质量退化数据进行建模。与许多学术研究依赖合成数据或理论设定不同，本研究通过实际数据来增强问题建模的实用性和解决方案的工业适用性。

设计有效的PM策略在该环境中特别具有挑战性，这主要是由于缓冲区动态、机器状态和质量退化之间的复杂相互作用。这些相互作用导致了庞大的状态空间，使得传统的基于模型的方法在计算上不可行。近年来，人工智能（AI）领域的进展，尤其是深度强化学习（DRL），为解决高维决策问题提供了可扩展、无需模型的方法。虽然最近的研究越来越多地探索先进的数据驱动维护方法，但大多数现有研究仅关注单机系统或理想化的多阶段设置，而没有将实际运营复杂性融入多阶段维护策略中。此外，产品质量退化的影响通常被抽象化或独立于机器状态和生产流程进行建模。相比之下，本研究明确考虑了机器生产状态、缓冲区行为和产品质量退化之间的相互作用，并在现实的串行生产线上进行建模。通过联合建模这些依赖关系和决策变量，我们旨在弥合理论模型与现实应用之间的差距。

本研究提出了一个维护规划问题，并作出了以下三个主要贡献：

1. **研究串行生产线上基于产品质量退化、缓冲区水平和机器生产状态的新型维护优化问题**。我们特别关注最后一台机器，即封装机，它对生产质量的影响最为显著。本研究通过考虑这些因素，为串行生产线上维护策略的制定提供了新的视角。

2. **将问题建模为平均奖励马尔可夫决策过程（MDP）并使用DRL求解**。我们将其性能与基于产品的方法和行业实践者设计的策略进行比较，以评估其有效性。这一方法能够处理复杂的不确定性，使维护策略在长期运行中实现最优。

3. **实施一个离散事件模拟（DES）框架**。该框架将生产建模为流体流动，并结合真实世界的产品质量数据和机器行为数据，以数字孪生环境评估策略。通过这种方式，我们能够在实际环境中验证维护策略的有效性，并确保其与生产流程的高度契合。

本文的其余部分结构如下。第2节回顾相关文献，第3节详细描述问题背景，第4节介绍生产、退化和维护建模方法，第5节描述解决方案，包括启发式方法和DRL，第6节报告实验评估，第7节总结全文并提出未来研究方向。

### 文献综述

预防性维护策略在历史和现代研究中都受到了广泛的关注，从单一组件系统到全面的串行和并行生产线上均有涉及。Geurtsen等人提供了一个关于如何在生产线上安排维护的综述，而Wang则对各种维护策略类别进行了全面的回顾。通常，预防性维护的主要目标是防止组件损坏，从而减少需要进行的纠正性维护（CM）次数，而纠正性维护通常成本较高。因此，许多研究关注于最小化维护成本，如Alrabghi和Tiwari的研究。另一方面，某些实践则侧重于减轻产品质量退化，以提高整体吞吐量，如Cui等人强调的。他们提出了一种基于强化学习的框架，利用隐藏模式MDP来考虑不同产品类型对退化的潜在影响，并通过图神经网络和LSTM从机器相互依赖性和生产序列变化中学习，减少了系统损失高达12%。

在该领域，研究者们普遍采用各种决策框架和学习算法来建模设备状态与产品质量退化之间的复杂相互作用。一个重要的观察是，设备退化不仅增加了故障风险，还影响了所生产产品的质量，通常会对下游机器产生连锁反应。一些研究明确建模了这种依赖关系，例如Chen和Zhou提出了一种基于强化学习的框架（IDAPPO），通过隐藏模式MDP来考虑产品质量作为隐藏驱动退化因素。他们的模型结合了图神经网络和LSTM，以学习机器相互依赖性和生产序列变化，从而减少系统损失。Li等人则结合扩展卡尔曼滤波器与深度Q网络（DQN）来跟踪隐藏退化状态，并在质量驱动的退化影响下优化预测性维护。Chen和Zhou的研究表明，他们的方法能够显著提高维护策略的效率。

类似的主题也出现在Wang等人、Hadian等人和Nazabadi等人的研究中，他们采用（部分可观测）马尔可夫决策过程（POMDP）来建模串行系统，其中产品质量作为潜在机器健康状态的代理指标。强化学习方法如Q-learning被用于在不确定性下学习成本有效的维护策略。这些方法在部分可观测性和退化不确定性下通常优于传统的阈值或周期性维护策略。

此外，一些研究扩展了决策范围，通过联合优化生产和维护来提高系统性能。例如，Boumallessa等人采用基于DQN的框架，平衡多阶段系统的生产控制和维护时间安排，从而提高产品质量和运营成本。Wei等人采用软演员-评论家（SAC）强化学习方法，将产品质量建模为机器健康状态的函数，直接影响故障风险和性能。这些研究表明，将生产与维护决策结合可以带来优于独立策略的结果。

其他应用包括特定领域的实施，如真空包装系统。Jiménez等人采用深度强化学习（DRL）来最小化肉制品包装中的质量缺陷和维护成本，其中真空损失直接反映组件退化。他们的模型实现了显著的改进，包括生产缺陷减少93%和维护成本降低91%。Zhang等人则从分析角度探讨了机器可靠性与产品质量之间的依赖关系，提出了三种预防性维护策略，通过调整参数如质量损失系数来提高效率和质量。

从建模的角度来看，产品质量退化正逐渐被视为一个潜在的或可测量的机器健康指标。Rivera-Gómez等人和Fakher等人采用MDP来捕捉多阶段系统中质量退化的下游传播。他们的强化学习和元启发式解决方案强调最小化总成本，包括返工和报废的成本，并在高退化不确定性下表现出鲁棒性。

尽管这些进展，当前的研究仍存在两个主要的不足。首先，虽然许多研究将设备退化与产品质量联系起来，但没有明确地将产品质量建模为机器生产率（即吞吐量）的函数。其次，大多数现有方法要么专注于单机，要么专注于一般多阶段系统，但并未考虑在串行生产线上使用质量驱动的退化模型与吞吐量考虑相结合的维护策略。

为了解决这些问题，本研究引入了一种新型的串行生产系统退化模型，明确地将产品质量与吞吐量联系起来，将这两者纳入实时维护决策中。这种方法旨在扩展当前文献，提供一个更全面且具有实际操作性的框架，用于质量感知的维护优化。

### 问题描述

基于前面的分析，我们可以定义一个具体的问题。该问题的目标是在一个由多台机器和中间缓冲区组成的生产线上，其中最后一台机器的产品质量退化已知，制定一个无固定时间间隔的维护策略。该策略旨在优化最后一台机器维护活动的时间安排，以最大化整体吞吐量。

假设Π为串行生产线上维护策略的集合。每个维护策略π∈Π决定了何时执行最后一台机器的维护。这一决策依赖于多种生产线上特征，包括机器状态和缓冲区水平，如第3.1节所述，以及产品质量退化，如第3.3节所述。假设P(t; π)为在维护策略π下，时间t内生产的总产品数。一个最优策略π*旨在最大化串行生产线上长期平均吞吐量。因此，维护优化问题可以表述为：

$$ \pi^* = \arg \max_{\pi \in \Pi} \left\{ \lim_{t \to \infty} \frac{P(t; \pi)}{t} \right\} $$

在这个生产环境中，批次之间的设置时间可以忽略不计，因为产品变化较小，因此未在模型中明确建模。同样，成本未被纳入目标函数，优化专注于吞吐量性能。

### 生产、退化和维护建模

本节详细说明了生产线上动态的建模方法、退化过程的建模以及维护对生产和退化的影响。

#### 生产线建模

我们使用离散事件模拟（DES）来建模生产线上连续时间的行为。更详细的信息可以在附录中找到。对于深入了解该模拟模型，我们参考Geurtsen等人的研究。离散事件模拟模型了一个包含N台机器和N?1个缓冲区的生产线上。模拟通过流体流动建模技术复制了高生产率，使用Nexperia提供的真实数据作为输入，以确保生产线上行为的最接近真实表现。

#### 退化建模

为了建模生产线上产品质量退化，第3.3节的数据分析提供了基础。由于产品质量损失数据仅在生产线上最后一台机器上可用，因此退化仅考虑该机器，而其他机器假设不受影响。当前Nexperia的维护策略是基于时间的，固定在12小时的间隔。这意味着维护活动是按固定时间间隔进行的，不考虑机器的状况或生产的产品数量。这种策略的优点在于其简单性，为技术人员提供了清晰的维护任务执行时间表。然而，缺点是维护可能过早启动，因为生产的产品数量取决于生产线上在时间间隔内的表现。一个典型的维护活动序列如图3所示。

为了评估基于时间的维护策略的影响，我们收集了多个生产线上两次维护活动之间生产的产品数量数据。这些数据是在工厂内多个生产线上记录的，每个生产线上都遵循相同的12小时维护间隔和类似的机器和操作条件。收集到的数据经过长期聚合并拟合到统计分布中。图4展示了结果，其中x轴表示每个间隔内生产的产品数量，y轴表示所有间隔中的频率。每种颜色对应不同的生产线上，以便比较不同生产线上生产的波动性。

有趣的是，虽然数据的中位数相对集中，但分布显示了显著的波动，不同生产线上之间存在显著差异。这表明基于时间的维护策略并不理想，因为两次维护活动之间生产的产品数量波动较大。这种波动尤其值得关注，因为维护活动旨在恢复生产质量，而不是解决生产速度或减少停机时间。由于产品质量下降取决于生产的产品数量，而不是时间流逝，因此基于时间的维护策略是无效的。

为了了解产品质量退化的大致行为，我们需要进一步分析。随后，可以利用这些知识来开发一个更精确的维护启动策略。

#### 维护建模

退化仅考虑生产线上最后一台机器。因此，维护也仅针对这台机器。维护活动仅影响生产质量，假设其被恢复到100%。维护活动不会影响机器的操作状态，如第4.1节所述。机器的运行和停机时间的分布假设在整个模拟中保持不变。

### 解决方案方法

本节描述了不同解决方案和基准策略，用于实验中的比较。如第3.4节所述，三个主要因素可能影响策略：（1）产品质量，（2）缓冲区水平，（3）机器生产状态。本研究中评估的解决方案方法各自结合了其中一个或多个这些特征，强调了在策略开发中包括特定特征的影响。我们将在本节中描述Nexperia当前的策略，并讨论如何在不同生产线上优化维护。

#### 现有时间策略（PTBP）

Nexperia当前采用的策略作为基准策略。如前所述，该策略是基于时间的，维护活动每12小时执行一次。这些时间间隔严格遵守，无论维护所需时间如何。由于维护时间在模拟中是变化的，每次维护活动都严格按12小时的时间间隔开始，即使维护实际耗时超过预期。该策略的简单性为技术人员提供了清晰的维护任务执行时间表，但缺点是维护可能过早启动，因为生产的产品数量取决于生产线上在时间间隔内的表现。图3展示了多个维护活动的序列。

#### 仅考虑产品质量的策略（QLP）

该策略基于产品质量水平。它通过一系列质量阈值进行迭代，当质量水平超过阈值时触发维护。每个质量阈值运行多次模拟，找到最优的质量水平，记为q*，以获得模拟中的最高平均吞吐量。图9展示了不同产品质量水平阈值下吞吐量的改善情况。结果显示，在较高的质量阈值下，PTBP表现更好，因为维护被延迟，产品质量相对较高。在约97.5%的质量阈值下，吞吐量开始超过PTBP，其中峰值改善出现在95%的质量水平，与PTBP相比吞吐量提高了2.01%。然而，在低于95%的阈值下，QLP的性能下降，因为延迟维护的好处被质量退化所抵消。

#### 考虑产品质量和缓冲区水平的策略（QBP）

QBP策略不仅考虑产品质量水平，还考虑最后一台机器与前一台机器之间的缓冲区水平。不同于之前的策略，该策略设置一个单一的质量水平阈值q_t，并在该水平被超过时触发维护。该策略还涉及找到最优的缓冲区水平b_opt。首先，生成一系列中间质量水平Q，从0质量退化开始，直到阈值质量水平。在每个中间质量水平q_i下，迭代一系列缓冲区阈值水平B，并进行模拟。缓冲区阈值水平b_j表示当当前缓冲区内容低于该阈值时应启动维护。该策略在第5.3节中进行了详细说明。模拟在这些中间质量水平和缓冲区水平上进行，涉及一个主模拟循环和中间模拟循环。主循环首先选择从质量阈值集合中最近的中间质量水平，然后进行一系列模拟，以找到最优的吞吐量。每个质量水平选择缓冲区阈值，以获得最高平均吞吐量。该过程随后重复，对于下一个中间质量水平，仅在前一次迭代中找到的最优缓冲区阈值触发维护。这种迭代更新持续到最终的中间质量水平，即完全退化的产品质量。该策略定义了维护的最优条件，由两个轴表示：一个是质量水平，一个是缓冲区水平。算法1用于确定最优QBP。

#### 深度强化学习策略（DRLP）

本研究中的问题非常适合采用直接优化长期平均奖励的算法，因为我们的关注点是生产线上吞吐量在无限时间范围内的表现。在平均奖励设置中，代理旨在最大化每一步的平均奖励，或奖励率。Geurtsen等人提出了一种平均奖励深度Q网络（ADQN）算法，专门设计用于在中等数量动作的环境中训练代理，以最大化平均奖励率，并展示了良好的结果。因此，他们研究中的方法适用于本研究中的问题。在Geurtsen等人的研究基础上，我们调整ADQN以适应当前的问题设置。特别是，我们将动作空间重新定义为更好地捕捉产品质量退化的动态，同时将奖励函数重新表述为反映生产出的高质量产品数量，而不仅仅是机器速度。我们提供该算法的简要总结，并参考Geurtsen等人的研究以获取更多细节。

深度Q网络（DQN）基于Q学习算法。在Q学习中，一个表格被用于查找每个状态-动作对的Q值，即Q(S, A)。然后，选择在特定状态下具有最高Q值的动作。在DQN中，Q值通过神经网络θ进行近似，即Q(S, A, θ) ≈ Q(S, A)。DQN的两个主要元素是经验回放和目标网络θ-。经验回放用于稳定学习过程，通过存储过去的经验，即一步转移（S_t, A_t, R_t, S_{t+1}）在一个回放内存B中。从B中采样小批量来训练神经网络θ。对于每个小批量样本j，Q值由神经网络θ和目标网络θ-预测。

ADQN与标准DQN的主要区别在于如何预测神经网络和目标网络的Q值。标准DQN使用折扣因子γ来平衡即时和未来奖励。相比之下，ADQN不依赖于折扣因子，而是直接跟踪训练过程中获得的平均奖励，并将该奖励纳入目标网络的Q值预测中。Q值的预测如下：

$$ Q_j = Q(S_j, A_j, \theta) - \overline{R} + Q(S_{j+1}, A', \theta) $$

其中，$\overline{R}$是平均奖励，通过以下函数估计：

$$ \overline{R} = \eta \cdot \frac{1}{b} \sum_{j=1}^{b} (Q_j^{-} - Q_j) $$

这里，b表示小批量的大小。该算法计算小批量内所有样本的总和，然后计算平均值。参数η是一个正的常数，调节平均奖励$\overline{R}$的调整程度，其中η的较小值表示对平均奖励的较小调整。完整的算法在算法2中详细说明。

在Geurtsen等人的研究基础上，该算法被调整以适应本研究，特别是在动作选择机制上。在Geurtsen等人的研究中，代理需要执行某些动作直到达到维护阈值，这可能需要维护。这种特定行为在当前研究中并不一定需要。虽然可能对代理有利的是观察到达到0产品质量水平，这可能需要多次选择动作1，类似于Geurtsen等人的研究，但这并非严格必要。最优产品质量水平可能并不位于极端退化点，而是在完全不同的位置。为了鼓励代理探索不同的产品质量水平，而不是仅在完全退化水平上进行探索，该机制被修改。这标志着与前一研究的明显不同，因为探索策略不再专门针对基于阈值的维护启动，而是支持更广泛的、质量驱动的探索。

探索策略的基础仍然是基于ε-贪婪方法，但随机动作的选择方式被调整：它涉及连续多次执行动作0，重复次数随机选择，从0到达到最终产品质量水平。这为代理提供了更多的自由来自主探索状态空间，同时在某些情况下也提供帮助，以达到独立探索可能难以达到的区域。算法3提供了探索策略的概述。除了定制的ADQN算法外，还使用了两种广泛使用的DRL技术——双深度Q网络（DDQN）和近端策略优化（PPO）——作为基准。图12展示了ADQN算法训练得到的策略，与QBP相比，DRLP-ADQN的策略显示了更多的优化机会。例如，当维护机器处于“up”状态时，DRLP-ADQN会延迟维护，尤其是在维护机器和前一台机器都处于“up”状态时。这种延迟可能是为了最小化对生产的干扰。相反，当维护机器处于“down”状态时，维护的启动机会会更早，如图12所示，此时维护的启动区域更大。如果前一台机器处于“starved”状态，这表明上游问题影响了生产，因此建议更早启动维护。这种效应在维护机器和前一台机器都处于“starved”状态时尤为明显。DRLP-ADQN在特定生产线上实现了2.81%的吞吐量提高，而与QBP相比，提高了0.23%。此外，DDQN和PPO方法未能找到有效的策略，其表现低于简单的QLP策略。这表明ADQN在优化长期平均吞吐量方面适合该问题设置，特别是在质量退化和缓冲区动态受限的系统中。

在该研究中，DRLP-ADQN表现出的2.86%的生产吞吐量提升在半导体行业具有重要意义。以Nexperia为例，1%的吞吐量提升可能带来约100万美元的利润增长，仅来自额外的生产量。此外，更高的吞吐量通过减少新设备投资来降低成本。此外，结果还表明，维护活动减少了45.6%，这可能显著减少维护任务所需的人力资源，从而带来进一步的成本节约。

### 实验分析

在本节中，我们将第5节中描述的解决方案方法进行比较。首先，我们将策略应用于Nexperia的生产线上进行分析。然后，将这些解决方案方法应用于多个Nexperia的生产线上，以获得其性能的合理估计。最后，我们将探讨不同退化率对系统性能的影响。

#### 模拟设置

首先，我们描述了第4.1节中提到的DES环境的设置。我们使用了Nexperia的多个生产线上收集的现实生产数据，这些数据跨越了多年。虽然这些生产线在机器数量和缓冲区容量上具有相似的设置，但它们表现出独特的行为。每条生产线上的每台机器运行方式不同，由不同的“up”和“down”状态以及不同的生产速度定义。按照附录A.1中的符号，表3提供了11条不同生产线上输入的摘要，展示了所有生产线的平均值，包括“up”和“down”时间的平均值（μ）和标准差（σ），以及机器速度的平均值。维护是在每条生产线的最后一台机器上进行的。表中还包含维护时间的平均值和标准差。

#### 策略

在第5节中描述的三种不同解决方案方法——QLP、QBP和DRLP——的策略如下。尽管有11条不同的生产线，但仅展示了一条生产线的策略以保持分析简洁，同时提供足够的见解。展示的策略来自生产线2，基于第4节中提到的平均退化率，如图7所示。

QLP策略在图9中展示了不同产品质量水平阈值下的吞吐量改善情况。选择了一系列产品质量水平阈值，从91%到99%，以0.125%的增量。结果表明，在较高的质量阈值下，PTBP表现更好，因为维护被延迟，产品质量相对较高。在约97.5%的质量阈值下，吞吐量开始超过PTBP，其中峰值改善出现在95%的质量水平，与PTBP相比吞吐量提高了2.01%。然而，在低于95%的阈值下，QLP的性能下降，因为延迟维护的好处被质量退化的增加所抵消。

QBP策略在图10中展示了结果，该策略引入了与QLP相比的额外维度，即在维护机器前的缓冲区水平。如第5.3节所述，该策略在不同缓冲区和产品质量水平上进行迭代，并进行相应的模拟。产品质量步骤为0.125%，缓冲区水平为25个步骤，每个步骤为4%。结果中的阴影区域表示执行维护的最优区域。值得注意的是，阴影区域在产品质量水平下降到98.25%后才开始，表明在较高质量水平下不应执行维护。在95.5%到98.25%的质量水平之间，只有当缓冲区完全空时才允许维护。随着产品质量水平从95.5%下降到92.5%，启动维护所需的最小缓冲区水平逐渐增加。在92.5%时，缓冲区水平达到最大，表明必须在这一点进行维护。有趣的是，虽然QLP的最优产品质量水平是95%，但在QBP中，它转移到了92.5%。这种转移是可能的，因为QBP等待更好的机会，即在较低的缓冲区水平下启动维护。通过在这些较低的阈值下启动维护，吞吐量可能增加，因为生产线上的上游机器在维护期间不太可能被阻塞。这种改进在特定生产线上与PTBP相比吞吐量提高了2.58%。

DRLP-ADQN策略在图12中展示了结果，该策略不仅考虑了质量和缓冲区水平，还考虑了生产线上的机器生产状态。状态空间被限制为最后两台机器，称为m1和m2，以及它们之间的缓冲区，因为维护是针对最后一台机器m2进行的。这种关注确保了对维护机器附近的关键动态的捕捉。初步分析表明，包括更多的上游机器和缓冲区不会带来显著的改进。此外，限制状态空间到这些组件可以清晰地展示训练后的策略。与QBP策略一样，产品质量被离散化为0.125%的步骤，产生800个可能的值，而缓冲区内容被离散化为25个水平。两台最后的机器各有四个可能的状态（up、down、starved、blocked）。为了避免使用连续标量，我们采用one-hot编码来确保与DDQN框架的兼容性。因此，神经网络的输入层大小为833（800 + 25 + 4 + 4），这对应于完整的离散化状态空间。输出层的大小等于可能的动作数，这里是2个动作，因为这是预防性维护问题。梯度下降步骤中使用的优化器是Adam（Kingma和Ba），使用默认设置，除了学习率ρ=1×10^-6。该算法在PyTorch（2.1.0 with CUDA 11.8）中实现，离散事件模拟在C#（.NET 5）中实现，两者都在配备AMD Ryzen? Threadripper? 3970X处理器和Nvidia 2080 Ti显卡的PC上运行。每条生产线实例的总训练时间设定为1小时。每条生产线实例进行五次训练运行。结果如图11（a）所示，展示了训练期间的平均奖励。深蓝色线表示五个运行的平均奖励（每时间步的产品数），而浅蓝色阴影区域表示标准差。图显示训练在不同运行中保持稳定，所有情况都达到收敛。需要注意的是，平均奖励的收敛并不一定意味着学习已经停止。这在图11（b）中可见，其中训练损失在学习的最后阶段继续下降。虽然平均奖励随着训练进展而稳定，但损失仍会有一些波动。在强化学习中，特别是在平均奖励设置或具有长期依赖的环境中，这是常见的现象。奖励反映了策略在实现长期目标方面的有效性，而损失则捕捉网络预测支持这些决策的价值估计（如Q值）的准确性。一旦代理识别出一个接近最优的策略，能够产生一致的奖励，小的值估计调整可能会继续进行，因为网络在优化预测。这些调整不一定影响整体策略行为，但可能表现为损失的波动。此外，由于损失衡量的是预测误差，而不是策略质量，因此即使学习策略保持稳定，损失也可能对微小的值估计变化表现出一定的敏感性。

在ADQN算法下获得的策略如图12所示。在比较DRLP与QBP时，可以观察到几个差异。首先，当维护机器处于“up”状态时，DRLP会延迟维护，特别是在维护机器和前一台机器都处于“up”状态时。这种延迟可能源于减少对生产的干扰的意图。相反，当维护机器处于“down”状态时，维护的启动机会更大，这在图12中通过这些情况下的阴影区域体现。如果维护机器前的机器处于“starved”状态，这表明上游问题影响了生产，因此策略建议在这些情况下更早启动维护。当维护机器处于“starved”状态时，理想的维护时间更为明显，因为此时没有生产活动，未来有生产力的运行可能性降低，因此这是维护的最优时机。这种效应在维护机器和前一台机器都处于“starved”状态时尤为明显。DRLP-ADQN在特定生产线上相对于PTBP实现了2.81%的吞吐量提升，与QBP相比提升了0.23%。除了ADQN外，还应用了另外两种常用的DRL算法，DDQN和PPO，但它们未能找到有效的策略，表现低于简单的QLP策略。这表明ADQN在这种特定问题设置中更为合适，特别是在优化长期平均吞吐量时，特别是在质量退化和缓冲区动态受限的系统中。接下来的章节将提供更全面的比较。

#### 性能分析

在前一节中，我们展示了单条生产线上结果，以说明策略的行为。同样的分析适用于表3中列出的所有实例，结果和关键性能指标（KPIs）在表3中进行了总结。

结果表明，与Nexperia当前的PTBP策略相比，有显著的改进。仅考虑产品质量水平的QLP策略实现了2.03%的吞吐量提升，当结合缓冲区水平时，QBP策略实现了额外的0.61%的改进，而当同时考虑机器生产状态时，DRLP-ADQN策略实现了进一步的0.22%的改进。主要原因是PTBP策略在早期启动维护，这在表中第二列的显著减少的维护活动和第三列的质量水平上可见。PTBP策略在早期启动维护，导致维护机器花费8.20%的时间在维护状态。

虽然QLP策略执行的维护活动最少，但它并未带来最高的吞吐量提升。这表明，即使选择了最优的产品质量水平进行维护，其他因素——如在适当时机进行维护，如缓冲区水平低时——也是至关重要的。尽管QLP策略执行了5.29%更多的维护活动，但QBP策略在与QLP策略的比较中表现更好，提升了0.61%。改进主要来自缓冲区的相互作用，如第五和第六列所示，其中平均缓冲区水平减少了1.1%，而维护期间的满缓冲区发生率减少了30.19%。

DRLP-ADQN策略在与QBP策略的比较中表现出进一步的吞吐量提升，尽管执行的维护活动更少。扩展的时间允许DRLP-ADQN识别更多优化的维护机会，从而弥补了优化机会减少带来的影响，实现了类似的吞吐量提升。

在分析维护启动时的机器生产状态分布时，观察到与默认退化情况相比的显著差异。QBP策略在维护机器处于“starved”状态时更频繁地启动维护，而在维护机器和前一台机器都处于“up”状态时则较少启动维护。DRLP-ADQN策略则在这些情况下表现出更分散的分布，这可能是因为可用时间更多，能够识别理想的机会。有趣的是，对于QBP和DRLP策略，维护几乎从“blocked-down”状态启动，因为这两种策略显著减少了平均缓冲区水平。

在更快的退化率下，维护启动的总体吞吐量提升相对于PTBP策略有所减少。这是预期的，因为更频繁的维护成为必要，使得PTBP策略，其固定时间设置，更为有效。然而，QBP和QLP策略之间的吞吐量提升差异略有增加，表明在更快的退化率下，考虑缓冲区水平的影响更为显著。这可能是由于维护活动的增加，提供了更多机会来利用缓冲区信息。同样，DRLP-ADQN策略相对于QBP策略的吞吐量提升也略有增加，这可能是因为维护活动的增加使得在优化时机上更为频繁。

另一个值得注意的观察是，在退化率增加时，维护期间的满缓冲区发生率更频繁。随着维护活动的增加，维护机器花费更少的时间在生产状态，导致平均缓冲区水平上升。

### 结论与未来工作

本研究探讨了由多台机器和中间缓冲区组成的生产线上维护策略的优化问题。最后一台机器的产品质量随时间退化。预防性维护可以执行以恢复机器的正常状态。目标是开发一个维护策略，以优化维护时间安排，从而最大化整体吞吐量。

我们创建了一个离散事件模拟（DES）模型，将生产线上多台机器和缓冲区的状态纳入维护策略中。通过考虑产品质量、缓冲区水平和机器生产状态，DRLP-ADQN策略实现了最佳结果。DRLP-ADQN策略优于Nexperia当前使用的基于时间的策略，其提升范围从2.38%到3.72%，具体取决于退化程度。

未来的研究可以扩展该问题，考虑生产线上多台机器的产品质量退化。研究可以探讨在相邻机器上同时进行维护是否会带来更多的机会。此外，分析不同机器之间的不同退化率可能提供进一步的见解。

未来的研究还可以扩展当前工作，通过多目标优化来显式解决吞吐量和产品质量之间的权衡。虽然本研究关注于最大化吞吐量，但结果表明，这可能在某些情况下以产品质量为代价。多目标方法或成本驱动的公式化，将吞吐量提升和质量损失结合到一个统一的性能指标中，将使优化更加平衡。然而，这需要可靠的质量相关成本数据，如再制造成本、废品率、材料浪费或质量惩罚，这些数据在本案例研究中不可用或保密。解决这些问题将显著提高未来维护策略的稳健性和实际应用价值。

此外，未来的研究可以扩展该框架，将“down”状态细化为更具体的类别，如设置、错误类型或小停机。虽然这将显著增加状态空间的大小，但它将允许更精细的维护策略，明确考虑设置或特定错误机会。

热点排行

新闻专题