基于多动作深度强化学习的网络化多工厂协同生产动态调度方法研究

【字体: 时间:2025年06月09日 来源:Engineering Applications of Artificial Intelligence 7.5

编辑推荐:

  针对大规模定制(MC)环境下网络化多工厂(MC-NMF-CPSP)动态调度难题,研究人员提出基于多动作深度强化学习(MA-DRL)的解决方案框架,构建多维度马尔可夫决策过程(MMDP),开发改进近端策略优化算法(Multi-PPO),实现动态需求下的高效协同调度。实验表明该方法在收敛效率、调度性能和动态适应性上显著优于基准算法,为智能制造提供新理论支撑。

  

随着全球经济一体化与生产分散化趋势加剧,制造业正面临产品种类激增、生命周期缩短及定制化需求暴涨的挑战。大规模定制(MC)虽能兼顾成本效率与个性化需求,但其动态特性导致传统静态调度方法在半导体、精密电子等多阶段跨工厂协作场景中捉襟见肘。现有分布式调度研究(DSP)多聚焦并行结构系统,难以应对需求周期性波动、地缘政治等引发的供应链中断风险。

中国某高校研究团队在《Engineering Applications of Artificial Intelligence》发表研究,提出基于多动作深度强化学习(MA-DRL)的网络化多工厂协同生产动态调度框架(MC-NMF-CPSP)。通过构建包含多维状态空间、两阶段动作空间和复合奖励的多重马尔可夫决策过程(MMDP),开发改进型近端策略优化算法(Multi-PPO),并引入再训练机制,最终建立MaDRL-NMF-CPSM模型。关键技术包括:动态需求一致性测量模型量化需求波动模式;Multi-PPO架构处理高维复杂调度问题;基于实际工业数据的仿真实验验证。

【问题描述】
定义含M个生产阶段(PS1
-PSM
)的网络化多工厂系统,每个阶段含Km
个工厂(Fm1
-FmKm

),处理N个具有不同工艺路线的订单(PO1
-PON
)。核心挑战在于动态需求下的跨工厂任务分配与多阶段协同。

【框架设计】
MA-DRL框架包含:1)状态空间集成设备状态、订单特征等12维指标;2)两阶段动作空间(工厂选择+工序排序);3)融合时间成本、设备利用率的复合奖励函数。

【实验验证】
对比六种模型显示:1)O-MaDRL-NMF-CPSM在订单完成率上较基准算法提升23.7%;2)动态场景下再训练机制使延迟率降低41.2%;3)Multi-PPO较单PPO训练稳定性提升58%。

该研究突破传统调度方法在动态环境中的局限性,提出的MMDP建模范式为高维复杂调度问题提供统一解决方案。特别值得注意的是,动态需求测量模型实现精准实时状态感知,Multi-PPO架构为多耦合子问题协同优化开辟新路径。研究成果对实现智能制造系统"感知-决策-执行"闭环具有重要实践价值,其方法论可扩展至半导体、航空航天等高端制造领域。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号