基于图神经网络与深度强化学习的仓库订单拣选与表示学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Systems》：Graph Neural Networks and Deep Reinforcement Learning for Warehouse Order Picking and Representation Learning

【字体：大中小】 时间：2026年06月09日 来源：Systems 3.1

编辑推荐：

　　订单拣选是仓库运营中资源消耗最大的环节之一，因此提升路径效率仍然是一项重要挑战。深度强化学习（Deep Reinforcement Learning, DRL）在复杂优化问题中已展现出潜力，但其在仓库订单拣选中的应用仍然有限，而图神经网络（Graph Neur

订单拣选是仓库运营中资源消耗最大的环节之一，因此提升路径效率仍然是一项重要挑战。深度强化学习（Deep Reinforcement Learning, DRL）在复杂优化问题中已展现出潜力，但其在仓库订单拣选中的应用仍然有限，而图神经网络（Graph Neural Networks, GNNs）在此背景下的基于图的表示学习在很大程度上尚未被探索。本研究提出了一种基于GNN的DRL方法，将仓库布局建模为图以优化订单拣选路径，同时学习存储位置的基于图的结构嵌入。该方法在小规模实例上与精确最优解进行评估，并在不同规模的模拟仓库环境中与包括Lin–Kernighan算法在内的经典启发式基线进行比较。结果表明，所提出的GNN–DRL方法在不同订单规模下产生的路径解具有较低的优化差距，且在微调后在不同仓库规模下保持有效。此外，一项初步的小规模多拣选人员实验说明，所提出的框架可以扩展到更复杂的仓库优化场景。此外，学习到的节点嵌入捕捉了仓库布局的有意义的结构属性，并能适应不同的操作环境，这突显了将GNNs和DRL集成为高级仓库优化的灵活基础的潜力。

该研究围绕仓库订单拣选路径优化与仓库布局表示学习展开，旨在构建一种可扩展、可泛化的智能决策框架。研究背景源于仓库运营的核心痛点：订单拣选作为资源密集型环节，其路径效率直接影响运营成本。传统方法将拣选问题建模为旅行商问题（Traveling Salesman Problem, TSP）及其变体，但仓库环境的特殊性——如正交巷道结构、曼哈顿距离约束、动态订单到达及多主体协同等——使得标准优化方法难以直接适用。尽管精确算法和启发式方法在静态小规模问题上表现良好，但面对动态、高维的复杂仓库环境时缺乏适应性。研究人员开展此项研究的动因在于，图神经网络能够有效编码图结构信息，而深度强化学习具备在线决策能力，二者的结合有望突破传统方法在动态性和可扩展性方面的瓶颈。

研究人员提出了一种基于图神经网络的深度强化学习框架，核心贡献体现在三个层面：一是将仓库订单拣选问题形式化为基于图神经网络的深度强化学习任务；二是证明了该框架在不同规模的模拟仓库环境中能产生低优化差距的路径解，且通过适当微调可泛化至不同仓库配置；三是揭示了学习到的节点嵌入能够有效捕捉仓库布局的结构属性。该研究发表于《Systems》期刊，为实时数据驱动的仓库决策系统奠定了方法论基础。

在技术方法层面，研究采用合成仓库布局作为实验场景，构建了600个和1200个存储位置两种规模的网格状仓库图模型。关键技术路径包括：基于关系型数据库模式的图构建，将巷道、交叉点、存储位置和入口映射为图节点，通行路径映射为边；采用Dijkstra算法计算全对最短路径距离以支持奖励函数设计；运用近端策略优化算法（Proximal Policy Optimization, PPO）训练图神经网络策略，其中策略网络采用12层TransformerConv架构（4个注意力头、32维输出），结合广义优势估计（Generalized Advantage Estimation, GAE）进行训练稳定性控制；通过引入锚点节点（anchor nodes）编码节点间最短路径距离信息以增强结构感知；实现批量推理优化以提升计算效率。多拣选人员扩展实验采用了聚类与启发式基线对比方案。

研究结果部分呈现了系统的实验验证。在训练收敛性方面，GNN–DRL模型在约3000个训练回合后持续优于Christofides启发式，约8000回合后超越局部搜索，约12000回合后稳定优于Lin–Kernighan启发式，最终收敛至最低平均路径长度。

针对优化差距分析，研究人员将GNN–DRL与Lin–Kernighan算法在订单规模5至20个存储位置的范围内与动态规划精确解比较。GNN–DRL的平均优化差距保持在2%以下（订单规模5时为0.77%，规模20时为1.72%），且95百分位差距稳定在5%至7%区间。在较大订单规模上，GNN–DRL相对Lin–Kernighan的改进随订单规模增大而愈发显著，统计显著性检验（Wilcoxon符号秩检验）p值在订单规模大于20时趋近于零。

关于不同仓库规模的泛化性能，直接迁移至1200个存储位置的大规模仓库时出现性能下降，但经2800个回合的微调训练后恢复并维持相对启发式方法的优势，尽管改进幅度略小于小规模仓库。这表明模型通过微调可适应不同规模配置，但相对增益随仓库规模扩大而适度衰减。

在嵌入可视化分析中，采用均匀流形近似与投影（Uniform Manifold Approximation and Projection, UMAP）技术降维显示：学习嵌入清晰保留了巷道结构信息，同属一个巷道的存储位置在嵌入空间中形成可辨识的簇，相邻巷道位置相近，且锚点节点在嵌入空间中具有显著可.steps特征。当改变拣选人员位置时，嵌入空间发生显著重组，与拣选人员的图距离高度相关，表明嵌入动态编码了任务相关上下文信息。

初步多拣选人员实验验证了框架的扩展潜力：通过增加第二个拣选人员节点，采用元素级乘法融合存储节点与拣选人员嵌入，经4000个回合训练后，在较小订单规模（≤11个位置）上快速超越"聚类+Lin–Kernighan"基线，但在较大订单规模上尚未完全收敛，表明训练策略和模型架构仍需进一步优化。

讨论与结论部分，研究人员系统总结了研究发现并指明未来方向。研究结论明确肯定了所提研究问题的答案：图神经网络能够同时学习捕捉仓库布局结构属性的有意义的嵌入和产生低优化差距的订单拣选路径，且通过微调机制可有效泛化至不同仓库配置。嵌入分析提供的证据表明，GNN编码的结构信息与物理布局、巷道组织及拣选人员位置高度一致，这种透明性支持了模型的可解释性验证。动态上下文适应性实验证实嵌入能够随操作条件变化而调整，为相似存储位置识别、物品空间分离等扩展应用提供了可能。

研究人员特别指出，该框架的根本价值不在于替代静态环境下的精确求解器，而在于为动态、联合优化场景建立可扩展的表示学习基础。当前局限包括：实验基于合成仓库布局，尚未充分验证真实世界异构环境的适用性；训练时间较长（约17天），尽管推理效率较高（单订单约0.086秒）且可通过课程学习策略加速收敛；锚点特征的依赖性有待进一步削弱；单拣选人员、单巡回的简化设定需要向多主体协同、拥塞效应和动态订单到达等复杂场景扩展。未来研究方向聚焦于：深入探索多拣选人员设置的优化机制；将图结构扩展至订单和物品层面以实现订单分批、物品分配等联合优化任务；开发更高效的训练策略和更灵活的架构设计，推动GNN–DRL成为适应复杂仓库系统的通用决策框架。

联系信箱：

粤ICP备09063491号

热点排行