基于门控循环单元与深度强化学习的柔性作业车间调度优化研究

《Knowledge-Based Systems》:Flexible Job-Shop Scheduling via Gated Recurrent Unit and Deep Reinforcement Learning

【字体: 时间:2025年10月27日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  本文创新性地提出了一种结合门控循环单元(GRU)与近端策略优化(PPO)算法的端到端深度强化学习(DRL)框架,通过异构图表征车间状态,将柔性作业车间调度问题(FJSP)建模为马尔可夫决策过程(MDP)。实验表明该方法在收敛速度、调度效率和稳定性方面均优于传统优先级分派规则(PDR)及循环神经网络(RNN)、长短期记忆网络(LSTM)等神经网络方法,为复杂制造系统提供了鲁棒且可扩展的解决方案。

  
亮点
本研究提出了一种新颖的深度强化学习(DRL)调度框架,融合门控循环单元(GRU)与近端策略优化(PPO)算法,以应对柔性作业车间调度问题(FJSP)的复杂性。通过异构图表征车间环境,有效捕捉众多工序与机器间的状态特征。调度过程被构建为马尔可夫决策过程(MDP),其中基于GRU的智能体通过PPO训练建模时间依赖性与多目标约束。嵌入特征表示用于从优先级分派规则(PDR)中推导动作概率。基准实验表明,所提方法优于传统PDR及基于神经网络的方法(包括循环神经网络RNN和长短期记忆网络LSTM)。结果凸显了更快的收敛速度、更高的调度效率以及跨多样场景下更低的计算波动性,证明该模型是解决FJSP的强健且可扩展方案。
结论与未来工作
本研究提出了一种新颖的基于DRL的调度框架,整合GRU和PPO以解决FJSP。通过利用异构图表征,该方法有效捕捉了FJSP的时间依赖性和内在约束。大量实验证实,所提方法相较于现有启发式和基于神经网络的方法,实现了更快的收敛、更高的调度效率及更低的计算波动性。结果凸显了该框架在复杂制造环境中的鲁棒性和可扩展性。未来工作将探索更复杂的动态约束和多目标优化场景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号