基于强化学习的动态集装箱堆场分配方法，考虑了集装箱集群策略的影响

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ADVANCED ENGINEERING INFORMATICS》：Reinforcement learning-based dynamic slot allocation in container yards considering container cluster strategy

【字体：大中小】 时间：2026年02月08日 来源：ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐：

　　港口集装箱终端实时货位分配优化研究，提出基于分层深度强化学习的“块级-槽位”动态决策框架，通过差异化聚类策略整合B/L单据信息，实现全局负载均衡与局部精准定位的协同优化，仿真验证显示该方法有效降低30%-40%的重新处理率，提升作业吞吐量15%以上。

董唐|梁成基|赵瑞|王宇|王盼龙|顾凤凤|卢涵

上海海事大学物流科学与工程学院，中国上海201306

摘要

全球贸易的持续增长给港口物流系统带来了巨大压力，使得集装箱码头的运营效率成为决定港口整体性能的关键因素。一个主要挑战是进口集装箱的实时舱位分配问题，这直接影响到码头的生产力，因为需要在快速卸货和最小化未来重处理之间找到微妙的平衡。这一复杂的决策必须考虑动态的码头条件（例如设备状态、拥堵情况）以及长期不确定性（例如集装箱提取时间）。传统的启发式方法往往无法解决这种大规模、高维度的优化问题。为了解决这些限制，本文提出了一种分析方法，该方法将一种新颖的集装箱集群策略与分层深度强化学习（HDRL）框架相结合，以解决动态舱位分配问题。该问题被建模为一个多阶段马尔可夫决策过程（MDP），并构建了一个两级“区块-舱位”HDRL架构。在该架构中，高层代理使用深度Q网络（DQN）来选择目标区块，而低层代理使用深度确定性策略梯度（DDPG）算法来精确确定具体舱位。通过广泛的模拟验证了我们的方法相对于基于规则的启发式方法和其他强化学习基准的优越性。结果表明，我们提出的框架在保持高运营吞吐量的同时显著减少了集装箱的重处理次数。此外，它还表现出更快的收敛速度和更稳定的决策效果。这项研究为智能集装箱码头管理提供了一种新颖的技术方法，具有显著提升港口整体运营效率的潜力。

引言

集装箱码头是全球海运供应链中的关键节点，其运营效率直接决定了多式联运物流网络的性能。在关键的码头操作中，进口集装箱的实时存储分配问题尤为重要且具有挑战性。这个问题涉及在动态码头环境中为即将到达的集装箱分配最佳存储位置，这一决策必须满足物理约束（如起重机可访问性和堆叠稳定性），同时在即时处理效率和未来取货成本之间找到动态平衡。核心挑战在于进口集装箱的取货时间具有高度不确定性，因为次优的放置决策不可避免地会导致大量的重处理，从而严重降低码头生产力。

现有的实时存储方法主要依赖于基于规则的启发式方法。尽管这些静态方法在计算上高效，但它们存在三个根本性限制。首先，它们表现出短视行为，仅优化当前位置而不考虑对未来码头状态的连锁影响。其次，它们的目标往往定义过于狭隘，优先考虑即时卸货效率而忽视了重处理的巨大下游成本——研究表明，重处理可能占码头起重机工作量的30-40%。第三，这些静态规则缺乏上下文意识，无法根据不同的码头利用率或集装箱批次特征调整策略。

为了克服这些限制，本文提出了一种差异化的集群策略，该策略利用同一提单（B/L）下集装箱的可互换性。鉴于大约70-80%的进口集装箱是按提单批量提取的，我们将来自同一提单的集装箱合并起来以减少未来的重处理。为了平衡重处理成本和卸货效率，我们引入了一种“对大提单进行集群处理，对小提单进行分散处理”的机制。为了在高维、动态环境中实施这一策略，我们开发了一个“宏观选择、微观分配”的分层深度强化学习（HDRL）框架。该框架的上一层使用深度Q网络（DQN）进行区块选择，以平衡整体工作负载，而下层使用深度确定性策略梯度（DDPG）代理进行精确的舱位确定。这种架构实现了即时效率和长期成本之间的动态权衡。

本文的主要贡献总结如下：

提出了一种基于提单互换性的差异化集群策略，通过“对大提单进行集群处理，对小提单进行分散处理”的机制将未来的重处理成本内化到当前决策中。
开发了一种分层深度强化学习（HDRL）框架，该框架将复杂的存储决策分解为宏观层面的区块选择和微观层面的舱位分配，有效减少了动作空间的维度，并提高了模型的收敛性和决策质量。
通过离散事件模拟进行了多维验证，证明了所提方法在减少重处理率和提高运营及时性方面的显著优势和鲁棒性。

本文的其余部分组织如下：第2节回顾了相关文献，分析了现有方法的优点和缺点。第3节定义了问题并提供了补充背景信息。第4节为实时集装箱舱位分配问题建立了数学模型，指定了目标函数和约束条件。第5节详细介绍了基于分层深度强化学习的解决方案框架。第6节通过模拟实验验证了所提方法的有效性。第7节总结了本文并讨论了未来的研究方向。

章节片段

文献综述

本节回顾了三个密切相关研究主题的相关文献：集装箱存储问题、集装箱重处理估计和管理以及放置解决方案算法。我们在表1中总结了这些工作的主要文献和特点。

问题描述

在本节中，我们提供了详细的问题描述，涵盖了以下方面：问题定义、集装箱集群的概念、处理效率以及重处理成本。

模型假设

为了便于模型构建和解决方案的制定，做出以下假设：

1)

集装箱码头仅存储进口集装箱。为简化分析，假设进口集装箱和其他类型的集装箱存储在不同的码头上。

2)

每个集装箱从船舶上的卸货时间（即装载到卡车上的时间）是已知的。

3)

未考虑码头起重机的基本垂直提升时间

4)

L-B/L集装箱是从顶部到底部提取的

算法框架

算法框架如图3所示。我们将舱位选择过程建模为一个分层马尔可夫决策过程（MDP）。每当一个进口集装箱到达码头大门时，给定当前环境状态

s_{t}

和可用动作集

A_{t}

，代理必须执行一个动作

a_{t} \in A_{t}

。然后环境返回一个即时奖励

r_{t}

，并转移到下一个状态

s_{t + 1}

。代理的目标是学习一种能够最大化长期累积奖励的舱位分配策略。

数值实验

在本节中，我们提供了全面的计算实验来验证所提出解决方案的有效性和效率。所有实验都在配备AMD Ryzen 9 7945HX CPU、RTX 4060笔记本电脑GPU、8 GB RAM和64位Windows 11操作系统的笔记本电脑上使用Python 3.12实现。

结论

本文开发并验证了一种创新的分层强化学习（HRL）框架，用于解决海运码头进口集装箱的实时舱位分配这一NP难问题。该框架通过整合宏观层面的区块选择和微观层面的舱位分配，实现了一个协同的双层决策过程。

CRediT作者贡献声明

董唐：撰写——原始草案、可视化、验证、数据整理。梁成基：监督、方法论、调查、概念化。赵瑞：撰写——审稿与编辑、监督、方法论、调查。王宇：方法论、调查、概念化。王盼龙：撰写——审稿与编辑、可视化、验证、监督、项目管理。顾凤凤：调查。卢涵：调查、验证。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号