
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于鲁棒强化学习的自动驾驶运动控制:一种应对模型误差与外部扰动的博弈论方法
【字体: 大 中 小 】 时间:2025年09月17日 来源:Communications in Transportation Research 14.5
编辑推荐:
为解决自动驾驶车辆在复杂城市环境中面临模型误差和外部扰动的问题,研究人员开展了一项关于鲁棒强化学习在运动控制中的应用研究。他们提出了一种结合博弈论和约束策略优化的方法,通过构建零和博弈框架来优化控制策略,实现在不确定性下的安全、舒适和合规驾驶。研究结果表明,该方法能有效提升系统在动态交通环境中的鲁棒性和适应性,为自动驾驶技术的实际部署提供了重要理论支撑。
随着自动驾驶技术的快速发展,城市道路环境中的复杂性和不确定性已成为制约其大规模应用的关键挑战。自动驾驶车辆在行驶过程中不仅需要应对自身动力学模型的误差,还要处理来自交通参与者(如其他车辆、行人)的外部扰动,以及传感器观测噪声等问题。这些不确定性因素使得传统的控制方法难以保证行驶的安全性和舒适性。特别是在交叉口通行、车道变换、跟车行驶等典型场景中,细微的决策偏差可能导致严重的后果。因此,如何设计一种能够在模型误差和外部扰动下仍能保持高性能的运动控制系统,成为学术界和工业界关注的焦点。
为了回答这一问题,研究人员在《Communications in Transportation Research》上发表了一项研究,提出了一种基于鲁棒强化学习(Robust Reinforcement Learning, Robust RL)的自动驾驶运动控制方法。该方法通过将模型误差和外部扰动建模为博弈中的“对手”,利用零和博弈框架优化控制策略,从而在不确定性环境下实现安全、舒适和合规的驾驶行为。研究结果表明,该方法在模拟环境和真实道路测试中均表现出优异的鲁棒性和适应性。
研究人员在开展这项研究时,主要采用了以下关键技术方法:首先,基于SUMO仿真平台构建了包含六类典型驾驶场景的任务库,如红灯停止、绿灯启动、绿灯通行、静态启动、车道变换和前车切入等;其次,设计了状态表示方法,通过编码和拼接(Encoding Sum and Concatenation, ESC)技术将变维度的观测信息转换为固定维度的状态编码;第三,采用增量动作设计,以转向角速度(r)和纵向加加速度(j)作为控制输入,确保底层控制的平滑性;第四,构建了多目标成本函数,包括跟踪成本(Rtrack)、舒适成本(Rcomfort)、安全成本(Rsafety)、合规成本(Rcompliance)和终止成本(Rdone);最后,提出了鲁棒策略迭代(Robust Policy Iteration, RPI)算法,通过泰勒展开近似最坏情况值函数,并在策略改进步骤中约束观测噪声的影响。
研究结果部分主要包括以下几个方面:
3.1. 任务库
通过SUMO仿真平台构建了六类驾驶场景,覆盖了自动驾驶车辆在城市道路中的典型行为。这些场景不仅包括单车行驶任务,还涉及与交通参与者的交互,确保了训练数据的多样性和平衡性。
3.2. 状态表示
研究人员将状态信息分为自车状态(xego)、参考轨迹状态(xref)和交通参与者状态(xsur),并通过局部坐标变换和相对位置计算,将高维观测信息转换为固定维度的状态表示。
3.3. 动作选择
采用增量控制方式,以转向角速度(r)和纵向加加速度(j)作为动作输入,通过底层执行机制实现对车辆转向角和纵向加速度的平滑控制。
3.4. 成本设计
成本函数综合考虑了跟踪性能、舒适性、安全性和合规性,通过多目标优化确保了车辆在不同场景下的综合表现。
3.5. 模型误差分析
通过对车辆动力学模型中不确定参数(如质量m、转动惯量Iz、轴距lf/lr、侧偏刚度kf/kr)的边界分析,量化了模型误差对系统性能的影响。
3.6. 外部扰动分析
将交通参与者的行为不确定性建模为外部扰动,并通过最坏情况分析,优化控制策略以应对这些扰动。
研究结论表明,基于鲁棒强化学习的运动控制方法能够有效应对模型误差和外部扰动,提升自动驾驶系统在复杂环境中的性能。该方法通过博弈论框架将不确定性建模为“对手”,并在策略优化过程中考虑最坏情况,从而实现了更高的鲁棒性。此外,通过多目标成本函数的设计,系统在安全性、舒适性和合规性之间取得了良好平衡。这项研究为自动驾驶技术的实际应用提供了重要的理论和方法支撑,特别是在动态和不确定环境中的运动控制方面具有广泛的应用前景。
生物通微信公众号
知名企业招聘