基于门控循环单元与深度强化学习的柔性作业车间调度优化研究
《Knowledge-Based Systems》:Flexible Job-Shop Scheduling via Gated Recurrent Unit and Deep Reinforcement Learning
【字体:
大
中
小
】
时间:2025年10月27日
来源:Knowledge-Based Systems 7.6
编辑推荐:
本文创新性地提出了一种结合门控循环单元(GRU)与近端策略优化(PPO)算法的端到端深度强化学习(DRL)框架,通过异构图表征车间状态,将柔性作业车间调度问题(FJSP)建模为马尔可夫决策过程(MDP)。实验表明该方法在收敛速度、调度效率和稳定性方面均优于传统优先级分派规则(PDR)及循环神经网络(RNN)、长短期记忆网络(LSTM)等神经网络方法,为复杂制造系统提供了鲁棒且可扩展的解决方案。
本研究提出了一种新颖的深度强化学习(DRL)调度框架,融合门控循环单元(GRU)与近端策略优化(PPO)算法,以应对柔性作业车间调度问题(FJSP)的复杂性。通过异构图表征车间环境,有效捕捉众多工序与机器间的状态特征。调度过程被构建为马尔可夫决策过程(MDP),其中基于GRU的智能体通过PPO训练建模时间依赖性与多目标约束。嵌入特征表示用于从优先级分派规则(PDR)中推导动作概率。基准实验表明,所提方法优于传统PDR及基于神经网络的方法(包括循环神经网络RNN和长短期记忆网络LSTM)。结果凸显了更快的收敛速度、更高的调度效率以及跨多样场景下更低的计算波动性,证明该模型是解决FJSP的强健且可扩展方案。
本研究提出了一种新颖的基于DRL的调度框架,整合GRU和PPO以解决FJSP。通过利用异构图表征,该方法有效捕捉了FJSP的时间依赖性和内在约束。大量实验证实,所提方法相较于现有启发式和基于神经网络的方法,实现了更快的收敛、更高的调度效率及更低的计算波动性。结果凸显了该框架在复杂制造环境中的鲁棒性和可扩展性。未来工作将探索更复杂的动态约束和多目标优化场景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号