分层深度强化学习在混合流式车间中的动态批量计划、调度与重新调度中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：Hierarchical deep reinforcement learning for dynamic lot-sizing, dispatching, and rescheduling in hybrid flow shops

【字体：大中小】 时间：2025年11月22日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　本研究提出一种分层深度强化学习框架，用于解决动态混合流车间调度带lot-sizing问题，通过三个协调智能体实现动态lot-sizing、机器调度和突发订单的实时响应，结合duelling DQN、n-step returns和优先级均匀 replay buffer提升学习效率，实验表明其显著优于传统规则和基线方法。

　　随着现代制造业向高混合、低批量模式的转变，企业面临着越来越大的压力，需要快速响应客户定制化需求、缩短交货周期以及应对新订单的不可预测性。在这种背景下，生产系统不仅要保持资源的高效利用，还需具备动态适应实时干扰的能力。这一复杂场景在学术界通常被描述为动态混合流水车间调度问题（DHFS）。而在实际应用中，DHFS-LS（即带有批量调度的动态混合流水车间调度）更是广泛应用于半导体、纺织、造纸和家具制造等多个工业领域。在此类环境中，任务通常被分组为批量，以提升物料利用率并减少加工时间。然而，现有的许多关于DHFS-LS的研究主要集中在优化调度或排序决策，这些决策往往是在固定批量结构下进行的，忽略了动态阶段批量调度策略在提高系统适应性和效率方面的潜力。

在传统批量结构下，所有阶段都采用相同的分组方式，这可能导致机器利用率低下，空闲时间延长，从而影响整体生产效率。相比之下，采用阶段动态批量调度策略可以依据实时的机器可用性和下游产能，对各阶段的任务进行灵活调整。这种灵活性不仅有助于在不同机器之间实现负载均衡，还能有效缩短总流程时间。因此，动态阶段批量调度策略被认为是提升生产系统应对突发变化能力的关键。

在DHFS-LS问题中，大多数调度方法，从基于规则的到元启发式算法，通常依赖于预定义的调度规则，如最早截止日期（EDD）、最短加工时间（SPT）或关键比率（CR）。这些规则虽然在静态或仅轻微动态的环境中表现良好，但在面对不断变化的生产条件时，缺乏适应性和学习能力。因此，它们在不同阶段的动态批量调度环境中可能无法提供最佳的调度效果。另一方面，元启发式方法将调度问题分解为多个子问题，并利用针对问题结构的智能搜索机制。虽然这些方法可以生成比简单启发式方法更高质量的调度方案，但其计算复杂性限制了其在高度动态环境中的实时应用。

近年来，深度强化学习（DRL）作为一种解决复杂决策问题的新方法，逐渐在动态和不确定环境中展现出强大的潜力。与基于规则或优化方法不同，DRL允许智能体通过与环境的持续交互，学习适应性的调度策略，并通过最大化累积奖励逐步提升性能。这种数据驱动的方法已被证明在动态调度场景中非常有效。特别是在DRL算法家族中，深度Q网络（DQN）在具有离散动作空间的任务中表现突出，这得益于其稳定性和样本效率。然而，将单一层次的DQN直接应用于DHFS-LS问题并不充分，因为它无法捕捉到这种生产系统中固有的层次化决策结构。

在实际应用中，DHFS-LS的决策涉及多个层面，包括批量形成、机器调度和在干扰情况下的再调度。这些决策发生在不同的时间与空间维度，并且存在紧密的相互依赖关系。因此，层次化强化学习（HRL）应运而生，通过将长期任务分解为一系列子任务，从而应对这一挑战。在HRL框架中，高层策略选择这些子任务作为抽象动作，而低层策略则专注于解决这些子任务。这种层次结构不仅简化了个体子任务的学习过程，还促进了在训练过程中的更结构化的探索。这些特性使得HRL成为解决复杂、长期调度问题的一种有前景的方法，例如在DHFS-LS系统中。

为了解决上述问题，本研究提出了一种层次化DQN框架，该框架将DHFS-LS调度问题分解为三个协调的决策层级。在顶层，批量调度智能体负责根据生产阶段的实际情况，动态决定任务的分组方式。在底层，调度智能体则根据学习到的排序策略，将每个批量的任务分配到特定的机器上。而在第三层，再调度智能体专注于对突发干扰做出反应，实时调整调度方案以应对动态变化。这种层次结构使得每个层级能够专注于其特定的子任务，同时保持整体调度过程的一致性。因此，系统能够有效应对新订单的突然到来，这些订单在实际生产系统中具有高度的不可预测性，并对批量调度和机器调度产生干扰。

除了整体架构之外，本研究的主要创新点还体现在几个针对DHFS-LS问题的具体设计上。首先，引入了阶段动态批量调度机制，使得在每个生产阶段的决策能够增强调度的灵活性并提高整体效率。其次，构建了针对DHFS-LS问题的特定状态表示和奖励函数，通过引入阶段相关的编码和归一化的延迟奖励，确保学习信号的稳定性和有效性。最后，开发了定制化的动作空间，并结合联合层次化训练方案，使得批量调度、调度和再调度智能体能够在协调一致的训练过程中相互配合，捕捉它们之间的相互依赖关系。

本研究的结构如下：第二部分回顾了与DHFS-LS、动态再调度和强化学习相关的研究进展。第三部分介绍了DHFS-LS问题的数学建模。第四部分详细阐述了所提出的层次化DQN框架，包括其架构设计、状态-动作-奖励机制以及三个智能体之间的交互方式。第五部分则报告了数值实验和对多种实例的比较分析。第六部分总结了研究的主要发现，并对研究的局限性以及未来研究方向进行了讨论。

在DHFS-LS问题中，混合流水车间调度模型（HFSP）是一个经典的研究对象，其特点是每个加工阶段包含多个并行的机器，使得任务可以同时进行，从而提升系统的灵活性和资源利用率。近年来，为了缩小理论模型与工业实践之间的差距，研究者们在HFSP中引入了更加现实的扩展，包括序列相关的设置时间、机器约束条件等。这些扩展使得模型能够更贴近实际生产环境，同时提升了调度的复杂性。

本研究提出的层次化DQN框架旨在解决DHFS-LS问题中的动态新订单到达带来的挑战。该框架采用了一种层次化的决策结构，由三个专门的DQN智能体组成：批量调度智能体、调度智能体和再调度智能体。每个智能体在调度过程的不同层级上运作，并通过协同工作来实现整体调度目标。这种结构不仅提高了系统的适应能力，还增强了对突发干扰的响应能力。

为了验证所提出方法的有效性，本研究在多个基准实例上进行了数值实验。实验结果表明，该方法能够显著降低总延迟时间，并在面对新订单到达时表现出优于传统规则和学习方法的响应能力。此外，通过系统化的消融实验和超参数分析，研究者们进一步优化了网络结构和训练参数，以提升模型的性能。这些实验结果不仅证明了该方法在理论上的有效性，还展示了其在实际工业应用中的潜力。

本研究的贡献在于，它提供了一种新的解决方案，以应对动态混合流水车间调度中的复杂问题。通过引入层次化结构，该方法能够在不同层级上进行决策，从而提高系统的整体效率和灵活性。同时，该方法结合了特定的状态表示和奖励函数，使得智能体能够在更稳定和有意义的环境中进行学习。此外，该方法还采用了联合训练机制，使得不同智能体之间的决策能够相互协调，从而提升系统的整体表现。

本研究的实验部分详细描述了实验设置和基准实例的设计。通过这些实验，研究者们能够系统地评估所提出方法的性能，并与其他方法进行比较。实验结果表明，该方法在处理新订单到达时表现出更高的灵活性和响应能力。此外，消融实验进一步验证了各个设计要素对模型性能的影响，从而为后续研究提供了理论依据和实践指导。

最后，本研究总结了主要发现，并对研究的局限性进行了讨论。尽管该方法在实验中表现出良好的性能，但在实际应用中仍存在一些挑战，例如如何处理更复杂的生产环境，如何进一步优化模型的训练效率，以及如何提高模型对不同类型的干扰的适应能力。这些挑战为未来的研究提供了方向，例如探索更先进的强化学习算法，改进状态表示和奖励函数的设计，以及开发更高效的训练机制。这些改进将有助于进一步提升该方法在实际工业环境中的应用价值。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号