《Reliability Engineering & System Safety》:Optimizing Post-Disaster Road Restoration with Reinforcement Learning: A Traveler-Behavior-Aware Approach
编辑推荐:
AI驱动灾害后道路网络恢复优化方法研究,提出整合强化学习与动态规划的系统TARM,考虑旅行者行为适应、资源约束及恢复时间不确定性,通过索奥克斯Falls龙卷风案例验证,揭示单纯缩短恢复时间可能降低交通效率,强调系统整体优化(110字)
Maryam Babaee | Namrata Saha | Frank Mediavilla Ponce | Shabnam Rezapour | M. Hadi Amini
佛罗里达国际大学(Florida International University),迈阿密分校,系统与管理学院(ESM),多学科工程与计算教育专业。
摘要
本文介绍了一种基于人工智能的方法,用于优化受灾地区的短期道路网络修复工作,旨在最大化灾后交通流量的恢复速度。该方法考虑了旅行者的行为、他们对网络变化的逐步适应过程、有限的修复资源以及修复时间的不确定性。为应对这些复杂性,需要采用随机方法来处理不确定性问题,通过顺序决策来管理资源,并使用无模型技术来模拟旅行者的适应行为。
为了解决这些问题,我们开发了“旅行者自适应修复机制”(Traveler-Adaptive Restoration Mechanism,简称TARM),该机制结合了强化学习(Reinforcement Learning,RL)、马尔可夫决策过程(Markov Decision Process,MDP)以及基于优化的日常交通模拟技术。我们在苏福尔斯(Sioux Falls)的道路网络上,基于历史数据,对这一方法进行了测试。测试结果强调了旅行者路线选择和修复信息传播速度对最优策略的影响。
研究发现,增加修复资源并不能必然提高灾后救援期间受灾社区的交通流动效率。此外,与以往的研究结果相反,缩短修复周期并不是衡量灾后修复工作效率的合适指标。事实上,缩短修复周期可能会对灾后救援阶段的交通流动产生不利影响。
章节摘录
引言
任何社会的有效运行都离不开其关键基础设施[56],其中道路网络尤为重要[29]。它们促进了社区间的互联互通,并确保了重要服务的提供(美国国土安全部总统指令,2003年)。然而,由于道路网络覆盖范围广泛,它们容易受到各种干扰,包括自然灾害和人为事件的影响。这些干扰可能会严重影响……
文献综述
本文研究的问题涉及文献中的四个研究领域:短期道路网络修复、道路网络设计/重新设计/扩建、灾后交通管理以及修复作业中的不确定性管理。这些研究领域分别在第2.1、2.2、2.3和2.4节中进行讨论,我们在第2.5节中总结了我们对这些领域的贡献。
问题描述
我们将道路网络表示为一个有向图:
其中包含一组节点和一组边
在正常情况下(即没有干扰的情况下),网络中节点和之间的交通流量处于平衡状态(附录A中包含了论文中的符号表示)。其中,表示灾前的对之间的交通需求。
数学建模
如前一节所述,TARM是一种基于强化学习(RL)的机制,其学习环境采用迭代优化算法。在强化学习中,智能体通过与学习环境的互动来调整其行为,根据反馈通过试错过程最大化长期累积奖励[48,87]。从环境中获得的迭代反馈帮助智能体修正其行为/决策,以优化目标函数。
案例研究:龙卷风情景
龙卷风是美国最常见的自然灾害之一。平均每年美国会发生1200次龙卷风[65]。特别是强度较高的龙卷风(如EF4级和EF5级),在美国发生的频率高于世界其他地区,尤其是在落基山脉以东的美国中部地区(Broyles & Crosbie, 2004)。该地区包括南达科他州等多个州。为了评估TARM的效率,我们选择了南达科他州的苏福尔斯市作为研究案例。
结论
本文提出了一种基于强化学习的行为驱动机制TARM,用于优化受损道路网络的灾后修复工作。TARM通过考虑旅行者路线的逐步适应行为,旨在最大化灾后交通流量的恢复速度。修复过程在资源限制(如修复人员数量有限)和随机因素(如受损/封闭道路的修复时间不确定)的条件下进行。
未引用参考文献
[8,10,12,51,64,80,81,84,94]
CRediT作者贡献声明
Maryam Babaee:撰写——审稿与编辑、可视化、验证、软件开发、方法论研究、数据分析、概念构建。
Namrata Saha:撰写——审稿与编辑、软件开发、数据分析、形式化分析。
Frank Mediavilla Ponce:撰写——审稿与编辑、数据分析。
Shabnam Rezapour:撰写——初稿撰写、验证、项目监督、方法论研究、资金筹集、形式化分析。