基于深度强化学习的汽车装配车间虚拟与物理协同重排序优化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月26日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对汽车装配车间因订单多样化导致的生产序列管理难题，本研究创新性地将虚拟重排序（virtual resequencing）与物理重排序（physical resequencing）相结合，提出基于预条件近似策略优化（P3O）的深度强化学习（DRL）算法。通过构建七维状态矩阵和集成决策动作空间，显著降低了序列规则违反总数（TRV），实验证明其性能优于传统启发式算法和现有DRL方法，为智能制造提供了新范式。

在汽车制造业面临订单个性化与生产复杂化的双重挑战下，装配车间的序列优化成为提升效率的关键瓶颈。传统重排序策略往往割裂处理虚拟重排序（调整订单分配）和物理重排序（调整车辆位置），而两者的协同优化虽能显著提升性能，却因问题复杂度激增缺乏有效解决方案。针对这一难题，湖北某高校团队在《Expert Systems with Applications》发表研究，首次将预条件近似策略优化（P3O）算法引入汽车装配车间的集成重排序问题（ICRP），开创了深度强化学习（DRL）在该领域应用的先河。

研究采用选择性缓冲区作为物理重排序载体，结合虚拟重排序技术，以最小化序列规则违反总数（TRV）为目标。关键技术包括：1）构建七维状态矩阵编码车辆位置、配置及序列进度；2）设计集成决策动作空间；3）开发含通道注意力机制的卷积网络增强特征提取；4）基于P3O算法提升策略稳定性。实验选取真实生产数据，对比四类启发式算法和两种DRL基准方法验证有效性。

研究结果部分显示：
问题描述
ICRP通过L×C结构的缓冲区实现物理重排序，同时允许订单与车辆解耦重组。核心矛盾在于缓冲区容量限制与工作站负载均衡的博弈，需动态平衡两者关系。

集成重排序框架
提出的DRL框架包含存储-释放双阶段机制。存储阶段采用启发式评估TRV变化，释放阶段通过P3O决策最优动作。注意力网络有效捕捉了车辆配置的空间关联性，较传统CNN提升特征权重分配精度达23.6%。

计算实验
在1200组测试实例中，P3O算法将TRV降低17.3%-42.8%，显著优于遗传算法、禁忌搜索等传统方法。与PPO、A2C相比，其采样效率提升2.1倍，验证了预条件处理的优势。消融实验证实虚拟重排序贡献率达38.7%，凸显集成策略的必要性。

结论与展望
该研究首次实现DRL在装配车间ICRP的成功应用，其创新性体现在：1）建立首个集成虚拟与物理重排序的DRL模型；2）开发面向制造系统的注意力网络架构；3）验证P3O在复杂调度中的优越性。未来可扩展至多目标优化和跨车间协同场景，为工业4.0下的智能调度提供新思路。研究获得湖北省科技重大专项支持，相关算法已进入车企试点应用阶段。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号