基于约束马尔可夫决策过程的自动驾驶超车高层决策：安全性与最优性的协同优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Open Journal of Control Systems》：MDP-Based High-Level Decision-Making for Combining Safety and Optimality: Autonomous Overtaking

【字体：大中小】 时间：2025年11月13日 来源：IEEE Open Journal of Control Systems 1.2

编辑推荐：

　　本文针对自动驾驶在双向双车道复杂交通环境中安全高效超车的核心挑战，提出了一种结合约束马尔可夫决策过程（MDP）与模型预测控制（MPC）的新型高层决策框架。该研究通过将安全性硬约束直接集成到MDP优化中，实现了在动态不确定环境下超车行为的递归可行性与稳定性保证。仿真结果表明，该方法在多种交互场景下均能生成安全、最优的决策序列，显著提升了自动驾驶系统的可靠性与执行效率。

在自动驾驶技术飞速发展的今天，让车辆在复杂的道路环境中像经验丰富的司机一样安全高效地完成超车，仍然是一个极具挑战性的任务。想象一下，在一条双向双车道的乡村道路上，您的自动驾驶汽车前方有一辆缓慢行驶的车辆，而对向车道不时有车驶来。此时，系统需要做出关键决策：是跟随、等待，还是抓住时机安全超车？这不仅关系到出行效率，更直接关乎生命安全。传统的决策方法，无论是基于规则的系统还是某些强化学习算法，往往难以在保证安全的同时实现最优性能，尤其在应对突发状况，如对向车辆突然加速时，其局限性更为凸显。

发表在《IEEE Open Journal of Control Systems》上的这项研究，正是为了攻克这一难题。由XUE-FANG WANG、JINGJING JIANG和WEN-HUA CHEN组成的团队提出了一种创新的解决方案，将高层决策建模为一个约束马尔可夫决策过程（MDP, Markov Decision Process），并巧妙地与模型预测控制（MPC, Model Predictive Control）相结合，旨在实现安全性与最优性的完美统一。

为了开展这项研究，作者们构建了一个分层控制框架。在这个框架中，高层决策模块（大脑）负责根据感知信息（眼睛）做出宏观决策，例如“保持车道”、“等待”或“初始化超车”。这些决策被传递给路径规划层，由其生成具体的行驶轨迹，最终由底层控制器（手脚）执行，确保车辆平稳、准确地跟踪轨迹。

研究的关键在于其核心方法。作者首先将超车过程抽象为一个包含三个状态（S₁: 车道跟随，S₂: 等待，S₃: 超车）和五个动作（a₁: 初始化，a₂: 恢复，a₃: 准备，a₄: 放弃，a₅: 保持）的MDP模型。状态之间的转换关系清晰定义了超车行为的逻辑。

与普通MDP不同，本研究创新性地引入了安全性硬约束。最重要的约束是椭圆形的碰撞边界，要求自车与周围车辆（如前车L_d、对向车辆O_r）在任何时刻都保持最小安全距离，其数学表达式为 ((x_e(k) - x_j(k)) / Δx_j)² + ((y_e(k) - y_j(k)) / Δy_j)² ≥ 1。另一个关键约束是时间到碰撞（TTC, Time to Collision）阈值，当前车与自车距离过近且TTC小于阈值t_thd时，禁止自车保持“车道跟随”状态，强制其考虑其他安全动作。

为了解决这个带约束的MDP问题，研究者采用了模型预测控制（MPC）的滚动优化策略。在每一个控制周期，算法都会根据当前车辆状态和环境信息，求解一个有限时域的最优控制问题，生成一系列未来的最优动作序列，但只执行第一个动作，然后在下一个周期重新进行规划和优化。这种方法能够有效应对环境的不确定性。为了确保算法的长期性能，研究者还设计了一个基线控制策略来计算终端成本J_f(s(N))，并基于李雅普诺夫函数方法证明了整个系统的递归可行性（即问题始终有解）和稳定性（即系统最终能安全地回到稳定状态）。

Symbol

Definition

y_rl

Left boundary of the left lane

y_rr

Right boundary of the right lane

y_lc

Lateral position of the centre line of left lane

y_rc

Lateral position of the centre line of right lane

主要研究结果

1. 算法有效性验证

研究通过五个典型的驾驶场景仿真验证了所提算法的有效性。场景从简单到复杂，涵盖了无对向来车、需要停车等待、跟随慢车并择机超车、以及对向来车突然加速等紧急情况。在所有这些场景中，基于MDP-MPC的决策系统均能做出安全、合理的决策。

•
场景1（无对向来车）：自车检测到前方静止车辆且对向车道空闲时，果断决策并成功完成超车，随后安全返回原车道。过程简洁高效：1（车道跟随）→ 3（超车）→ 1（车道跟随）。
•
场景2（需要耐心等待）：当对向车道有两辆连续驶来的车辆时，自车决策减速并在原地停止等待，待对向车辆全部通过后，才安全地发起并完成超车。过程体现了算法的耐心和安全性：1（车道跟随）→ 2（等待）→ 3（超车）→ 1（车道跟随）。
•
场景3（跟随前车并择机超车）：面对缓慢移动的前车和间歇性有车的对向车道，自车先尝试超车，但因对向来车逼近而放弃并返回原车道跟随前车；等待合适时机后，再次发起并成功完成超车。过程展示了算法的动态调整能力：1 → 3 → 2（等待/跟随）→ 3 → 1。
•
场景4（应对突发状况）：在场景3的基础上，引入一辆对向车辆突然加速的极端情况。自车在首次超车过程中感知到危险后，立即放弃超车返回原车道；待危险解除后，重新计算并成功完成超车。这充分证明了算法在高度动态和不确定环境下的强大鲁棒性。过程更为复杂：1 → 3 → 2 → 3 → 2 → 3 → 1。
•
场景5（同向车道场景及对比）：为了展示通用性，研究还考虑了同向车道场景，并将所提方法与现有规则基准方法[42]进行对比。结果表明，MDP-MPC方法在确保安全（最小TTC远大于规则方法）的同时，还提升了乘客舒适度（加速度均方根值改善约16%）。在遇到侧方车辆汇入主路时，MDP方法选择保守的“放弃”动作返回原车道，而规则方法则冒险“加速”试图创造安全间隙，导致TTC急剧减小，安全性堪忧。

2. 递归可行性与稳定性证明

理论研究部分通过严格的数学推导证明了所提算法的两个重要性质：

•
递归可行性：在合理的参数设置（如安全距离d_safe、TTC阈值t_thd和t_thdr）下，如果初始时刻优化问题是可行的，那么在其后所有时刻，算法都能找到一个满足所有安全和动态约束的可行解。这是安全关键系统的基本要求。
•
稳定性：算法能保证自车在经过有限时间后，最终会稳定在“车道跟随”（S₁）这一期望状态，即成功完成超车任务并回归正常行驶。这避免了系统在非期望状态（如“等待”）下无限徘徊。

3. 计算效率分析

对于实际应用至关重要的计算时间，文章也进行了分析。在预测时域N为5、7、10时，每个决策步骤的最大计算时间分别约为0.4秒、0.7秒和1秒，均小于高层决策系统设定的采样时间（1秒），证明了该算法的实时应用潜力。

结论与意义

本研究成功地将约束MDP与MPC相结合，为自动驾驶超车这一复杂任务提供了一个兼具安全性、最优性且具有理论保证的高层决策解决方案。其重要意义主要体现在以下几个方面：

1.
安全性优先的决策框架：通过将硬安全约束（椭圆碰撞边界、TTC约束）直接嵌入到在线优化问题中，实现了对安全性的主动、前瞻性保障，而非事后检查，这对于自动驾驶在真实不确定环境中的部署至关重要。
2.
理论保证与实践可行性的结合：不仅提供了递归可行性和稳定性的严格数学证明，增强了算法的可靠性，同时通过MPC的滚动优化和合理的模型简化，保证了算法的计算效率，使其具备实时应用的潜力。
3.
强大的环境适应性：在多种复杂、动态的交通场景（包括双向和同向车道）下的仿真测试，充分验证了算法在处理各种不确定性（如车辆突然加速）方面的有效性和鲁棒性。
4.
性能提升：与现有的规则基准方法相比，所提方法在保证安全的同时，还能提升乘员舒适度，展现了其综合性能优势。

这项工作为自动驾驶系统的高层智能决策设计提供了新的思路和强有力的工具，标志着在实现安全、可靠、高效的完全自动驾驶道路上迈出了坚实的一步。未来的工作可以进一步考虑感知不确定性、更复杂的车辆动力学模型以及扩展到更多样的驾驶场景。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号