HeroCS:面向最后一公里配送中异构任务的协同快递员调度优化研究
《IEEE Transactions on Mobile Computing》:HeroCS: Cooperative Courier Scheduling for Heterogeneous Tasks in Last-Mile Delivery
【字体:
大
中
小
】
时间:2025年12月16日
来源:IEEE Transactions on Mobile Computing 9.2
编辑推荐:
本文针对最后一公里配送中异构任务(配送、揽收和客户拓展)的协同调度难题,提出基于强化学习的HeroCS系统。研究通过距离约束的快递员建模和协同调度学习模块,解决了大规模状态空间、异步决策和多目标优化的挑战。实验表明,HeroCS将任务完成率提升高达40.7%,快递员不公平性降低83.3%,为物流平台提供了高效的动态调度方案。
在线上线下商业模式日益普及的今天,物流系统已成为提升人们生活便利性的重要组成部分。而作为整个物流服务链中最昂贵的环节,最后一公里配送通常由快递员执行,他们需要同时处理配送、实时揽收和客户拓展等异构任务。然而,现有的调度方法要么忽视长期优化,要么基于简化的智能体移动设置,难以应对实际场景中任务服务时间和快递员行程时间不同步等复杂挑战。
针对这一难题,罗格斯大学的Wenjun Lyu等研究人员在《IEEE Transactions on Mobile Computing》上发表了题为"HeroCS: Cooperative Courier Scheduling for Heterogeneous Tasks in Last-mile Delivery"的研究论文。该研究首次探索了在最后一公里配送中同时考虑配送、揽收和客户拓展三类异构任务的快递员调度问题,并创新性地将细粒度快递员移动行为建模与强化学习相结合。
为实现这一目标,研究团队提出了HeroCS系统,其核心技术方法包括:1)距离约束的快递员建模模块,通过距离感知的top-k动作剪枝方案缩减状态和动作空间;2)协同调度学习模块,采用状态感知动作掩码解决异步决策问题,并设计混合奖励函数实现多目标自适应优化。系统基于集中训练分散执行框架,利用真实物流平台数据(包含120万配送任务、100万揽收任务和1.5万客户拓展任务)进行验证。
研究结果显示,HeroCS在任务完成率(TCR)、配送揽收任务完成率(TCR-DP)和快递员不公平性(CU)等关键指标上均显著优于现有方法。具体而言,在Sdp(预期TCR-DP阈值)设置为80%的条件下,HeroCS相比传统规则方法和强化学习基线,TCR提升最高达40.7%,TCR-DP提升最高达53.8%,同时将CU降低最高83.3%。
通过深入分析客户拓展任务与配送任务的目的地分布,研究发现80%的客户拓展任务与配送任务的最小距离小于83米,这为将客户拓展任务整合到快递员日常工作中提供了可行性。这一发现成为HeroCS系统设计的重要依据,使得在不显著增加运输成本的前提下,能够有效利用快递员资源完成客户拓展任务。
在系统架构设计方面,HeroCS采用马尔可夫决策过程(MDP)对问题进行建模,将每个快递员视为智能体,将其状态定义为快递员相关状态和环境相关状态的组合。其中环境相关状态包含k个候选位置的8维特征,包括经纬度坐标、三类任务的数量及其服务时间等信息。
距离感知的top-k动作剪枝方案是HeroCS的核心创新之一。如图2所示,该方案通过选择当前快递员位置附近k个有可用任务的最近位置作为动作候选集,有效解决了大规模位置空间带来的计算复杂度问题。这种设计既符合快递员在实际工作中倾向于前往附近位置执行任务的行为模式,又保证了算法的可扩展性。
单个快递员调度学习模块采用深度Q网络(DQN)架构,如图3所示,该模块将快递员相关状态、环境相关状态以及上一步动作进行拼接,通过多层感知机(MLP)和门控循环单元(GRU)捕获序列依赖关系,最终输出每个可能动作的Q值。
协同调度模块采用Q-mixing网络实现快递员间的有效合作,如图4所示。该设计通过确保全局Q函数关于单个快递员Q函数的偏导数非负,保证了集中式训练与分布式执行的一致性,使得各快递员独立选择最优动作时,整体系统也能达到最优。
在模型训练过程中,研究团队设计了状态感知的动作掩码方案,有效解决了因任务服务时间和行程时间不同步导致的异步决策问题。当快递员处于工作状态( traveling between two locations or serving tasks)时,系统会将其非当前动作的Q值设置为极大负值,从而确保调度决策的可行性。
实验评估部分涵盖了不同场景下的系统性能测试。如图5所示,通过变化Sdp值(从70%到100%),研究人员验证了HeroCS在不同任务优先级设置下的适应性。结果表明,在不同Sdp条件下,HeroCS均能保持最优性能,证明了混合奖励函数设计的有效性。
参数k的优化选择也是本研究的重要贡献。如图6和图7所示,研究团队在正常日和购物节两种不同任务分布场景下测试了k值从4到16的影响。结果表明,k=12时系统在任务完成率和计算效率之间达到最佳平衡,过小的k值限制环境信息利用,过大的k值则影响模型效率。
快递员数量变化对系统性能的影响同样得到了充分验证。如图8所示,通过融合邻近站点的异构任务,研究人员测试了快递员数量从20到50时系统的可扩展性。结果显示,HeroCS在不同规模场景下均保持最优性能,证明了其在实际部署中的适用性。
研究的讨论部分总结了三个重要发现:首先,通过考虑细粒度快递员移动行为,HeroCS比现有方法更适用于实际应用场景;其次,通过最小化快递员不公平性(CU)的优化目标设计,提高了系统在实际部署中的接受度;最后,系统最大实时运行时间约0.3秒,满足了实际应用的效率要求。
该研究的局限性主要体现在三个方面:当前状态表示仅考虑邻近位置的任务分布,未显式包含未来信息;未考虑快递员偏好和位置熟悉度等体验相关指标;由于数据可获取性限制,仅在一个平台数据上进行评估。这些局限性为未来研究指明了方向,包括整合未来任务预测、考虑更多体验相关指标以及在多平台验证系统通用性等。
从更广泛的视角来看,本研究提出的异构任务协同调度方法可推广到其他类似场景。例如,网约车系统可以调度车辆同时服务高优先级乘客请求和低优先级众包任务,从而提高司机收入。这种跨场景的适用性进一步凸显了研究的理论价值和实践意义。
在伦理和隐私保护方面,研究团队采取了地理编码处理原始地址、获得快递员轨迹数据收集许可、最小化信息暴露等多重措施,确保了研究过程的合规性和数据安全性。
目前,该研究已与国内某大型物流公司展开合作,在五个配送站进行了实际部署验证,初步结果证明了系统的有效性和应用潜力。这项研究不仅为解决最后一公里配送中的异构任务调度问题提供了创新解决方案,也为相关领域的智能调度系统设计提供了重要参考。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号