利用协作式多智能体深度强化学习实现高效自行车共享车辆重新定位

《ACM Transactions on Sensor Networks》:Efficient Bike-sharing Repositioning with Cooperative Multi-Agent Deep Reinforcement Learning

【字体: 时间:2025年11月08日 来源:ACM Transactions on Sensor Networks

编辑推荐:

  共享单车调度系统BikeBrain通过时空预测模型ST-NetPre和时空协作多智能体强化学习方法ST-CBR解决供需失衡问题,采用集中学习与分散执行机制克服高维动作空间,设计综合考虑即时与未来收益的奖励函数,并在大规模真实数据集上验证优于现有基线方法。

  

摘要

作为一种新兴的按需出行服务,自行车共享系统(BSS)通过为市民提供灵活、经济且环保的交通方式,在全球范围内得到了广泛应用。由于现有的自行车重新定位策略效率低下——该策略仅根据预先定义的周期性计划来重新分配自行车,而未考虑用户需求的高度动态性——供需失衡成为BSS面临的主要挑战之一。尽管强化学习已被用于某些重新定位问题以缓解供需失衡,但由于城市中工作人员和自行车数量动态变化导致的动作空间维度问题,将其扩展到BSS时仍存在显著障碍。在本文中,我们研究了这些障碍,并通过提出一种新颖的自行车重新定位系统BikeBrain来解决它们。该系统包括一个需求预测模型和一个时空自行车重新定位算法。为了获得准确且实时的使用需求以实现高效的自行车重新定位,我们首先提出了一个名为ST-NetPre的预测模型,该模型直接考虑了用户需求的高度时空特性。此外,我们还提出了一种时空协作多智能体强化学习方法(ST-CBR),用于学习基于工作人员的自行车重新定位策略,其中BSS中的每个工作人员都被视为一个智能体。具体而言,ST-CBR采用集中式学习和分散式执行的方式,在基于平均场强化学习(MFRL)的基础上实现大规模动态智能体之间的有效协作,同时避免了动作空间的巨大维度问题。对于动态动作空间,ST-CBR利用SoftMax选择器来选择具体的动作。同时,为了考虑智能体操作的利益和成本,我们设计了一个高效的奖励函数,以寻求兼顾即时奖励和未来奖励的最优控制策略。基于大规模真实世界数据集进行了广泛的实验,结果表明,我们提出的方法在供需差距和运营成本指标上相较于多种现有基准方法有显著改进。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号