基于深度强化学习的汽车装配车间虚拟与物理协同重排序优化研究

【字体: 时间:2025年06月26日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对汽车装配车间因订单多样化导致的生产序列管理难题,本研究创新性地将虚拟重排序(virtual resequencing)与物理重排序(physical resequencing)相结合,提出基于预条件近似策略优化(P3O)的深度强化学习(DRL)算法。通过构建七维状态矩阵和集成决策动作空间,显著降低了序列规则违反总数(TRV),实验证明其性能优于传统启发式算法和现有DRL方法,为智能制造提供了新范式。

  

在汽车制造业面临订单个性化与生产复杂化的双重挑战下,装配车间的序列优化成为提升效率的关键瓶颈。传统重排序策略往往割裂处理虚拟重排序(调整订单分配)和物理重排序(调整车辆位置),而两者的协同优化虽能显著提升性能,却因问题复杂度激增缺乏有效解决方案。针对这一难题,湖北某高校团队在《Expert Systems with Applications》发表研究,首次将预条件近似策略优化(P3O)算法引入汽车装配车间的集成重排序问题(ICRP),开创了深度强化学习(DRL)在该领域应用的先河。

研究采用选择性缓冲区作为物理重排序载体,结合虚拟重排序技术,以最小化序列规则违反总数(TRV)为目标。关键技术包括:1)构建七维状态矩阵编码车辆位置、配置及序列进度;2)设计集成决策动作空间;3)开发含通道注意力机制的卷积网络增强特征提取;4)基于P3O算法提升策略稳定性。实验选取真实生产数据,对比四类启发式算法和两种DRL基准方法验证有效性。

研究结果部分显示:
问题描述
ICRP通过L×C结构的缓冲区实现物理重排序,同时允许订单与车辆解耦重组。核心矛盾在于缓冲区容量限制与工作站负载均衡的博弈,需动态平衡两者关系。

集成重排序框架
提出的DRL框架包含存储-释放双阶段机制。存储阶段采用启发式评估TRV变化,释放阶段通过P3O决策最优动作。注意力网络有效捕捉了车辆配置的空间关联性,较传统CNN提升特征权重分配精度达23.6%。

计算实验
在1200组测试实例中,P3O算法将TRV降低17.3%-42.8%,显著优于遗传算法、禁忌搜索等传统方法。与PPO、A2C相比,其采样效率提升2.1倍,验证了预条件处理的优势。消融实验证实虚拟重排序贡献率达38.7%,凸显集成策略的必要性。

结论与展望
该研究首次实现DRL在装配车间ICRP的成功应用,其创新性体现在:1)建立首个集成虚拟与物理重排序的DRL模型;2)开发面向制造系统的注意力网络架构;3)验证P3O在复杂调度中的优越性。未来可扩展至多目标优化和跨车间协同场景,为工业4.0下的智能调度提供新思路。研究获得湖北省科技重大专项支持,相关算法已进入车企试点应用阶段。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号