强化学习在热轧生产中用于实现节能的多目标动态规划

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《JOURNAL OF MANUFACTURING SYSTEMS》：Reinforcement learning for energy-efficient multi-objective dynamic planning of hot rolling production

【字体：大中小】 时间：2026年03月28日 来源：JOURNAL OF MANUFACTURING SYSTEMS 14.2

编辑推荐：

　　能效多目标动态规划问题（EEMODPP）是钢铁企业生产管理的关键任务，需应对生产环境中的动态事件并协调冲突目标。本文提出基于深度强化学习的预测-反应框架，通过构建数学模型整合生产成本、 tardiness、能耗及调度稳定性目标，利用多目标指针网络（MOPN-KT）结合知识转移与变邻域搜索优化策略，实现高效动态 replanning。实验验证其优于传统多目标优化方法，并在实际钢厂案例中验证可行性。

作者：Che Gelegen、Zhao Shengnan、Zhao Guodong、Zhang Yanyan

东北大学国家工业智能与系统优化前沿科学中心，中国沈阳 110819

摘要

热轧生产中的能源高效多目标动态规划问题（EEMODPP）是钢铁企业中的一项关键生产管理任务。特别是，EEMODPP的动态性质和多个相互冲突的目标要求采用一种智能规划方法，该方法能够在生产环境发生中断时迅速做出响应，并进行有效的权衡。为了解决这个问题，提出了一种基于深度强化学习（DRL）的预测-反应框架，以高效生成初始计划和应对五种类型动态事件的反应计划，包括紧急订单插入、订单属性修改、机器性能下降、下游需求以及定期重新规划。首先，建立了一个新的数学模型来同时最小化生产成本、延误、能源消耗和计划不稳定性。其次，为了高效解决每个重新规划问题，开发了一个具有知识转移功能的多目标指针网络（MOPN-KT）。具体来说，EEMODPP被分解为一系列标量化子问题后，重新表述为马尔可夫决策过程，其中DRL策略被参数化为指针网络，通过形成对未计划订单的概率分布来进行顺序决策。第三，将变邻域搜索（VNS）集成到MOPN-KT的训练过程中，以增强策略学习，同时提出了一种基于增量参考向量激活的知识转移策略来加速训练。消融实验验证了VNS集成和知识转移策略的有效性。与最先进的多目标优化方法在合成实例上的比较测试表明，MOPN-KT在解决方案质量和运行时间方面具有优越性。最后，一个来自钢铁公司的实际案例研究验证了其实用性。

引言

在全球推动能源高效制造的大背景下，作为高能耗行业的钢铁行业必须将能源考虑纳入生产管理中，以在激烈的市场竞争中保持竞争力[1]。钢铁生产包括一系列将客户订单转化为最终产品的复杂操作。这些操作通常分为三个阶段：炼钢-连续铸造（SCC）、热轧和冷轧，如图1所示。

在SCC阶段，铁矿石和废钢被熔炼和精炼以获得特定等级的液态钢，然后铸成板坯[2]。这些板坯要么储存在板坯堆场中，要么保存在保温坑中，要么直接送入再加热炉。在等待期间，板坯温度会下降，从而增加了将其重新加热到目标轧制温度所需的能量[3]。因此，在热轧规划问题中，最小化能源消耗与生产成本一样是一个关键目标[4]。再加热后的板坯被轧成卷材，可以直接作为成品出售，或者在冷轧阶段进一步加工以提高精度和表面质量。

在按订单生产的模式下，如图2所示，确认后的客户订单被转化为生产订单。销售部门指定制造标准、设计工艺路线等，之后订单被发布给制造部门。热轧生产计划决定了在中长期范围内（例如一周或一个月）内发布的订单的轧制顺序，以优化多个相互冲突的目标，如最小化生产成本[5]、延误[6]和能源消耗[4]，同时受到轧机和再加热炉的技术限制。随后，车间调度确保在短期内（例如一天或几小时）内操作顺畅。因此，高效的生产计划是订单管理和生产执行之间的关键环节。

然而，生产过程本质上是动态的，这对生产计划提出了重大挑战。这些动态性源于各种干扰，如紧急订单插入、订单属性修改、不确定的下游需求以及逐渐恶化的机器性能。尽管有一些研究已经解决了热轧生产计划（HRPP）中的订单插入[7]和订单修改[8]问题，但下游需求和机器性能下降在HRPP中很少被考虑。关于前者，冷轧阶段动态地需要特定的热轧卷材，因为其生产计划会随时间变化。在HRPP中不足地考虑这些需求可能导致不必要的卷材库存过多，而实际需要的卷材短缺[9]，从而延长生产周期[10]。同样重要的是机器性能下降。高温和机械应力会逐渐降解轧机部件。为了防止计划外停机，必须在灵活的时间窗口内（例如一周）安排预防性维护[11]。由于维护会占用生产时间，因此需要共同优化生产计划和维护时间[12]。

因此，开发一种用于热轧生产中能源高效多目标动态规划问题（EEMODPP）的高效方法是具有挑战性的任务。现有的动态调度方法通常分为三类：完全反应式、预测-反应式和鲁棒主动式[13]。完全反应式方法在没有预先规划的情况下进行实时决策。其中，调度规则是最广泛使用的方法[14]。它们优先处理订单并将最高优先级的订单分配给可用机器[15]。尽管已经采用了遗传编程[16]等技术来演化复杂的规则，但在HRPP的复杂多目标环境中，任何单一规则通常表现有限[17]。鲁棒主动式调度构建了能够吸收潜在干扰的调度，依赖于对不确定性的预先表征[18]、[19]。然而，在实际的热轧过程中，干扰多种多样且难以提前全面建模[15]。相比之下，预测-反应式调度生成一个初始计划并执行它，直到发生动态事件，然后触发重新规划以构建新计划[20]。这种方法允许在重新规划点进行全局重新优化，以适应环境变化，而无需事先进行不确定性建模[13]、[20]。这种适应性很好地满足了HRPP对有效性和响应性的需求，使其成为EEMODPP的合适选择。

在预测-反应式调度框架中，计算效率和计划稳定性是两个关键问题。这里，计划稳定性指的是修订后的计划与之前计划之间的偏差。过大的偏差会干扰辅助生产设备（例如起重机和再加热炉）的计划活动，导致工作场所的工作量增加和不稳定[8]。因此，在重新规划过程中应将计划稳定性作为EEMODPP的一个目标。然而，在现有文献中对此的研究较少。

除了稳定性优化之外，另一个关键挑战在于开发一种能够快速生成高质量计划以应对中断的方法。鉴于EEMODPP是NP难问题[21]且多目标的，精确方法很难在可接受的计算时间内提供帕累托最优解。因此，广泛应用了元启发式方法，如多目标进化算法（MOEAs）[22]。然而，在实际的热轧生产中，中断频繁发生，导致问题规模和实例特性在重新规划问题之间有显著变化。尽管存在动态优化技术，MOEAs通常需要大量的迭代搜索才能重新收敛[23]。在需要及时响应的动态生产环境中，这种计算延迟是不可接受的。相比之下，深度强化学习（DRL）在高效解决组合优化问题（COPs）[24]、[25]、[26]方面显示出巨大潜力。DRL代理通过试错从历史实例中学习决策策略，一旦训练有素，可以在短时间内为未见过的实例生成高质量解决方案[27]。此外，基于编码器-解码器架构（例如指针网络）的DRL策略可以端到端部署，无需迭代搜索，并且可以处理不同大小的实例。这种效率和泛化能力使DRL非常适合动态生产规划。

然而，尽管DRL在经典COPs中取得了成功，但其在实际多目标动态规划问题中的应用仍然很大程度上未被探索。本研究的动机是通过开发基于DRL的预测-反应框架来解决热轧生产中的EEMODPP问题，从而扩展DRL在动态热轧环境中快速、适应性权衡的应用范围。主要贡献如下：

1)

问题表述：建立了一个预测-反应框架来处理动态中断。为重新规划制定了一个新的数学模型，其中下游需求和机器性能下降分别转化为虚拟订单和虚拟订单，与生产订单一起进行调度。目标是最小化生产成本、延误、能源消耗和计划不稳定性。

2)

解决方案方法：为了高效构建新计划，提出了一种具有知识转移功能的多目标指针网络（MOPN-KT）。EEMODPP被重新表述为一组标量化子问题。每个子问题的策略由指针网络参数化，并通过结合DRL和监督学习的混合训练机制进行优化。

3)

改进策略：变邻域搜索（VNS）具有双重目的。首先，它为监督学习提供高质量标签，以提高DRL策略的训练效率。其次，它在训练期间生成可靠的先前计划以进行稳定性计算。此外，提出了一种基于增量参考向量激活的知识转移策略，以扩展训练后的策略集，同时保持解决方案的多样性。

本文的其余部分组织如下。第2节介绍了相关工作。第3节描述了问题并介绍了EEMODPP的数学模型。第4节详细介绍了EEMODPP每个重新规划问题的新MOPN-KT方法。第5节讨论了实验结果。最后，第6节得出了结论。

文献综述

表1总结了关于HRPP的相关研究，包括目标、特征、动态性和解决方案方法，随后进行了详细回顾。

问题描述

对于热轧生产的EEMODPP，考虑了五种类型的中断：紧急订单插入、订单属性修改、机器性能下降、下游需求以及定期重新规划。前四种是由动态事件驱动的中断，而定期重新规划是由SCC定期发布生产订单触发的。一旦发生这五种中断之一，就会触发重新规划以生成新计划。新计划构建的时间是

算法概述

所提出的基于DRL的预测-反应框架的工作流程如图5（左）所示。在EEMODPP的初始阶段，提出的MOPN-KT方法加载与

M

个标量化优化子问题相关联的训练有素网络的参数，并以协作方式提供一组预测计划。选择符合决策者偏好的计划并实施。在实施过程中，一旦发生动态中断，就会触发重新规划，

实验研究

本节介绍了针对热轧生产中的EEMODPP提出的基于DRL的预测-反应框架的实验研究。所有DRL模型，包括提出的MOPN-KT和比较DRL方法，都是使用PyTorch在单个RTX 2080 Ti GPU上训练的。为了公平比较，训练有素的DRL模型、元启发式方法和数学编程优化器（Gurobi）都是用Python 3.7编写的，并在配备16 GB RAM的Intel 8-Core i7-11700 CPU上执行

结论

本研究提出了一种基于DRL的预测-反应框架，用于响应热轧生产中的动态中断重新生成计划。考虑了五种类型的中断：紧急订单插入、订单属性修改、机器性能下降、下游需求以及定期重新规划。在每个重新规划点，制定一个新的数学模型来最小化生产成本、加权延误惩罚、能源消耗和计划

CRediT作者贡献声明

Shengnan Zhao：撰写——审阅与编辑、调查。Gelegen Che：撰写——原始草稿、验证、软件、方法论、调查、概念化。Yanyan Zhang：撰写——审阅与编辑、验证、调查、数据整理。Guodong Zhao：撰写——审阅与编辑、验证、监督、项目管理、数据整理。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言

文献综述

文献综述

问题描述

算法概述

实验研究

结论

CRediT作者贡献声明

利益冲突声明

热点排行