
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度强化学习的汽车装配车间虚拟与物理协同重排序优化研究
【字体: 大 中 小 】 时间:2025年06月26日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对汽车装配车间因订单多样化导致的生产序列管理难题,本研究创新性地将虚拟重排序(virtual resequencing)与物理重排序(physical resequencing)相结合,提出基于预条件近似策略优化(P3O)的深度强化学习(DRL)算法。通过构建七维状态矩阵和集成决策动作空间,显著降低了序列规则违反总数(TRV),实验证明其性能优于传统启发式算法和现有DRL方法,为智能制造提供了新范式。
在汽车制造业面临订单个性化与生产复杂化的双重挑战下,装配车间的序列优化成为提升效率的关键瓶颈。传统重排序策略往往割裂处理虚拟重排序(调整订单分配)和物理重排序(调整车辆位置),而两者的协同优化虽能显著提升性能,却因问题复杂度激增缺乏有效解决方案。针对这一难题,湖北某高校团队在《Expert Systems with Applications》发表研究,首次将预条件近似策略优化(P3O)算法引入汽车装配车间的集成重排序问题(ICRP),开创了深度强化学习(DRL)在该领域应用的先河。
研究采用选择性缓冲区作为物理重排序载体,结合虚拟重排序技术,以最小化序列规则违反总数(TRV)为目标。关键技术包括:1)构建七维状态矩阵编码车辆位置、配置及序列进度;2)设计集成决策动作空间;3)开发含通道注意力机制的卷积网络增强特征提取;4)基于P3O算法提升策略稳定性。实验选取真实生产数据,对比四类启发式算法和两种DRL基准方法验证有效性。
研究结果部分显示:
问题描述
ICRP通过L×C结构的缓冲区实现物理重排序,同时允许订单与车辆解耦重组。核心矛盾在于缓冲区容量限制与工作站负载均衡的博弈,需动态平衡两者关系。
集成重排序框架
提出的DRL框架包含存储-释放双阶段机制。存储阶段采用启发式评估TRV变化,释放阶段通过P3O决策最优动作。注意力网络有效捕捉了车辆配置的空间关联性,较传统CNN提升特征权重分配精度达23.6%。
计算实验
在1200组测试实例中,P3O算法将TRV降低17.3%-42.8%,显著优于遗传算法、禁忌搜索等传统方法。与PPO、A2C相比,其采样效率提升2.1倍,验证了预条件处理的优势。消融实验证实虚拟重排序贡献率达38.7%,凸显集成策略的必要性。
结论与展望
该研究首次实现DRL在装配车间ICRP的成功应用,其创新性体现在:1)建立首个集成虚拟与物理重排序的DRL模型;2)开发面向制造系统的注意力网络架构;3)验证P3O在复杂调度中的优越性。未来可扩展至多目标优化和跨车间协同场景,为工业4.0下的智能调度提供新思路。研究获得湖北省科技重大专项支持,相关算法已进入车企试点应用阶段。
生物通微信公众号
知名企业招聘