基于强化学习（Reinforcement Learning, RL）的自卸卡车调度策略：一种土方与采石场作业框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Buildings》：Reinforcement Learning-Based Policy for Haul-Truck Dispatch: A Framework for Earthmoving and Quarry Operations

【字体：大中小】 时间：2026年06月09日 来源：Buildings 3.1

编辑推荐：

　　摘要：在露天矿土石方系统（矿山、采石场及大型挖填建设工程现场）中，卡车至电铲分配是一项时间关键的管控问题，其中随机行驶与服务时间、变化的排队状况以及设备停机持续改变最优调度决策。研究人员开发了一种深度强化学习（Deep Reinforcement Learni

摘要：在露天矿土石方系统（矿山、采石场及大型挖填建设工程现场）中，卡车至电铲分配是一项时间关键的管控问题，其中随机行驶与服务时间、变化的排队状况以及设备停机持续改变最优调度决策。研究人员开发了一种深度强化学习（Deep Reinforcement Learning, DRL）调度策略，并使用Sungun铜矿运输系统的离散事件仿真（Discrete-Event Simulation, DES）数字孪生（Digital Twin）进行训练。调度任务被建模为马尔可夫决策过程（Markov Decision Process, MDP），所采用的状态特征表征车队位置、电铲与卸料点排队状况以及短期拥塞条件。由此产生的深人工神经网络（Deep Artificial Neural Network, DANN）策略通过系统的超参数优化进行调参，并在长时段运行轨迹下与基于优先级的经验法则调度基线进行对比评估。结果表明，最终训练所得策略使平均每卡车循环产量提升约17%，同时减少可避免等待并保持长时间稳定运行，其推理速度足以支持实时调度应用。模型保真度由仿真与观测的日完成循环次数高度吻合所支撑。通过受控的卡车装载容量扰动评估鲁棒性，并通过车队规模敏感性分析考察可扩展性，揭示了在固定挖掘–运输配置下追加卡车存在收益递减现象。文中讨论了实际部署考量及对建设工程土方物流的意义。

研究背景方面，露天矿、采石场及大型土方工程的车队调度是影响生产力的核心问题，卡车循环连接装载、运输、卸料与返程等活动，调度决策需在不确定性下反复作出，性能对拥塞、设备可用性和短时装载与运输能力失衡高度敏感。传统方法涵盖固定调度规则、数学优化以及基于仿真的优化，在稳定条件下有效，但难以用于实时控制，因为系统状态快速变化且最优决策依赖于排队、行驶时间、设备利用率之间的非线性交互。深度强化学习（Deep Reinforcement Learning, DRL）提供了一种基于经验的策略，可在训练后将观测系统状态直接映射为调度动作，然而既有研究多采用简化环境、有限工况与少量场景，缺乏敏感性分析，其在更高保真度仿真中面对现实拥塞、行驶时间、停机时的鲁棒性、可扩展性及实时性仍不明确。为此，研究人员以Sungun铜矿为案例，构建离散事件仿真（Discrete-Event Simulation, DES）数字孪生（Digital Twin），开发并评估基于深人工神经网络（Deep Artificial Neural Network, DANN）的DRL调度策略，论文发表于《Buildings》期刊。

关键技术方法上，研究人员采用的主要方法包括：以Sungun铜矿为样本队列来源，基于Arena构建DES数字孪生，参数来自已发表的Sungun运行数据，包含40台卡车、9台电铲、多运输路线及三角分布描述的随机装载、运输、返程、卸料时间与设备故障；将调度建模为马尔可夫决策过程（Markov Decision Process, MDP），状态向量涵盖车队状态与阶段、装载状态、剩余矿量、电铲与卡车状态、行驶时间、循环时间、排队长度、生产目标等，动作定义为空闲卡车选择下一电铲/运输路线，奖励定义为r=T_max?T_cycle（T_cycle为实际循环时间，T_max为参考上限），奖励长度为可调超参数；策略用全连接前馈DANN实现，ReLU隐藏层、Sigmoid输出层，探索率ε从1.0衰减至0.01，采用经验回放（experience replay）、mini-batch更新、折扣因子γ=0.99、定期目标网络更新；通过自定义接口耦合Python（PyTorch）与Arena仿真，形成“探索调度生成经验—更新DANN”的两阶段循环；开展系统超参数优化（学习率、mini-batch大小、奖励长度、隐藏层数、每层节点数）与敏感性分析；设置随机策略、经验法则（rule-of-thumb）优先级启发式两条基线，在相同DES条件下以多独立重复仿真（周运行水平、20次重复、每班990分钟）评估性能指标（完成循环数、空闲等待、电铲闲置等），并进行数字孪生保真度校验（仿真vs观测日完成循环数）、卡车装载容量±10%、±20%扰动鲁棒性测试，以及不同车队规模的扩展性分析。

研究结果部分，3.1节主要基线比较：最终训练DANN策略与经验法则基线在6000卡车循环长时段轨迹下对比，结果显示平均每一卡车循环产量提升约17%，优势在全轨迹中持续，归因于策略能动态平衡各路线与装载点、减少可避免拥塞及局部过分配带来的低效，DES中循环时间分解表明电铲间异质性大，DRL策略可依据排队与短时失衡进行系统级择优而非固定规则。3.2节初始至最终训练模型的策略成熟化：初始模型因尚处探索阶段，性能波动较大，最终模型经过训练后在相同6000循环下呈现稳定提升轨迹，说明增益来自学习而非单次仿真偶然，RL循环尺度上平均循环时间逐轮改善，证明调度决策随训练稳定对齐系统工况。3.3节数字孪生相对于实测运行的保真度：仿真与Sungun现场观测的日完成卡车循环次数在量级与变化模式上高度吻合，支持DES环境可作为可信评估基底，后续对比与敏感性均在同一校准环境中以一致重复控制进行。3.4节运行参数扰动下的鲁棒性：在固定训练策略下对卡车装载容量做±10%、±20%扰动，绝对产量随容量变化，但DANN策略仍保持相对稳定改进模式，未出现脆性退化，说明策略响应的是运输、装载、排队动态而非单一工况窄域拟合。3.5节车队规模增加的可扩展性：在固定挖掘–运输配置下逐步增加卡车数，产量初始随车队扩大上升（减少设备欠利用），随后趋缓饱和，受限于电铲服务能力、共享路线交互与排队形成，印证了在拥塞与排队主导区需要状态响应式调度，而非固定分配规则。

讨论部分，研究人员指出所学DRL调度策略主要通过预判短期拥塞、平衡电铲与卸料点服务来提升性能，可同时依据多线索（排队长度、卡车位置、预期到达）决策，优于固定优先级经验法则，降怠速并提高受限资源利用率，稳定循环完成时间方差进而稳定吞吐与计划可靠性。超参数与状态定义、奖励设计对性能与稳定性影响显著，系统化模型选择有助于迁移至其他场地或建设工程土方场景。若实际部署，需可靠事件数据流（卡车调度时间、排队观测、电铲/卸料点可用性）及明确决策触发（如卡车空闲时），推理时间应远小于调度节拍；策略需因道路几何、设备组合、运行规则变化而周期性重训，DES数字孪生可提供离线安全更新与验证环境，但依赖仿真保真度与数据质量，现场落地还需站点治理、监控与变更管理。局限性包括：主要锚定单一详细案例研究Sungun，结论受案例输入充分性、代表性及DES建模假设（行驶时间分布、服务时间模型、故障表示、约束）影响；车队规模敏感性虽给出扩展趋势，但不能完全复现现场中断与人类操作实践联合分布；当前为DES评估环境下政策可行性与性能潜力证据，非安全关键场景认证级验证。意义在于提出可复现的DES–DRL训练流水线、系统化超参数与敏感性、实证相对经验法则改进、扩展性刻画及土方工程迁移讨论，为数据驱动的露天与建设工程车队调度提供框架。

结论部分翻译：本文开发并评估了一种用于随机露天矿运输系统中卡车分配的深度强化学习（Deep Reinforcement Learning, DRL）调度策略，方法将离散事件仿真（Discrete-Event Simulation, DES）数字孪生与DRL训练耦合，含系统化超参数优化与敏感性测试以支持透明模型选择。在各评估实验中，所学策略通过减少可避免等待与缓解瞬态拥塞，相对经验法则基线提升了调度性能，同时推理速度足以支撑实时调度。车队规模敏感性结果显示在固定挖掘–运输配置下追加卡车存在收益递减，凸显了在拥塞与排队主导机制中状态响应式调度的重要性。在合理的卡车装载容量扰动下的鲁棒性测试表明，当运行条件偏离校准基线时性能优势仍能保持，但这受限于仿真保真度与状态表示的充分性。关键局限涉及对仿真保真度及参数化所用运行数据充分性与质量的依赖、使用单一主要案例研究、当前状态表示中的简化、跨场地与工况的有限迁移能力，以及单目标奖励设定。因此未来工作应聚焦：（i）更广泛的现场验证以解决仿真与案例依赖性；（ii）更丰富的状态特征（如品位或质量约束、维护状态）以弥补当前状态表示局限；（iii）多目标奖励公式联合权衡成本、产量与排放，以解决奖励简化问题；（iv）迁移学习策略以解决跨场地与运行条件变化的有限迁移；（v）面向可解释性的分析以改进所学策略行为的理解并支持决策透明。

联系信箱：

粤ICP备09063491号

热点排行