强化学习在电动汽车扭矩矢量控制中的应用综述:面向稳定性控制与能量优化的前沿技术
《IEEE Open Journal of Vehicular Technology》:Reinforcement Learning for Torque Vectoring in Electric Vehicles: A Review of Stability-Oriented Control and Energy Optimization Techniques
【字体:
大
中
小
】
时间:2025年12月24日
来源:IEEE Open Journal of Vehicular Technology 4.8
编辑推荐:
为解决传统扭矩矢量控制策略依赖精确模型、适应性差的问题,研究人员系统综述了强化学习(RL)在电动汽车(EV)直接横摆控制(DYC)和能量优化中的应用。文章详细阐述了RL基于模型自由、自适应学习的优势,分析了深度确定性策略梯度(DDPG)、双延迟深度确定性策略梯度(TD3)及随机集成双Q学习(REDQ)等算法在提升车辆横摆稳定性、降低能量消耗方面的潜力。结果表明,RL控制器能有效应对非线性动力学和不确定性,为多目标协同优化提供了更直接的框架,是传统模型基方法的有前景替代方案。
随着全球向可再生能源系统转型,电动汽车(EV)作为替代内燃机(ICE)的解决方案,在降低温室气体排放和促进可持续能源整合方面扮演着关键角色。电动汽车的独特优势在于其电驱动系统,特别是多电机和独立执行器的配置,为实现精细化的动力分配控制提供了可能。扭矩矢量控制(Torque Vectoring)作为一项核心技术,通过独立调节每个车轮的扭矩,产生所需的横摆力矩,从而显著增强车辆的操纵稳定性和循迹性能。然而,传统的扭矩矢量控制方案大多依赖于固定的车辆模型和参数整定,在面对复杂的非线性动力学、变化的道路条件(如路面摩擦系数突变)以及未建模的扰动时,其适应性和鲁棒性往往受限。这种局限性促使研究者转向无需显式模型、具备自主学习能力的数据驱动控制策略,其中,强化学习(RL)因其能够通过与环境的直接交互来学习最优控制策略而备受关注。
为了系统梳理RL在EV扭矩矢量控制领域的最新进展,由Reza Jafari、Shady S. Refaat、Amin Paykani、Pedram Asef和Pouria Sarhadi组成的研究团队在《IEEE Open Journal of Vehicular Technology》上发表了题为“Reinforcement Learning for Torque Vectoring in Electric Vehicles: A Review of Stability-Oriented Control and Energy Optimization Techniques”的综述文章。该文旨在全面回顾RL如何应用于改善EV的车辆动力学,同时实现能量效率目标,并处理实时驾驶环境中的不确定性。
文章首先建立了必要的基础知识,回顾了横摆稳定性控制的分类,重点介绍了直接横摆控制(DYC),特别是基于扭矩的DYC(即扭矩矢量)方法。与基于制动的DYC或间接控制方法(如主动前轮转向AFS)相比,扭矩矢量能更高效地产生横摆力矩,且无制动能量损失,更适合追求性能和能效的EV。文章还介绍了扭矩矢量常用的分层控制结构,其中高层控制器计算期望的横摆力矩,底层控制器负责将力矩分配给各个车轮。
在综述传统扭矩矢量策略(如线性二次调节器LQR、模型预测控制MPC、滑模控制SMC)及其局限性的基础上,文章重点转向了模型自由的RL方法。RL问题的核心组件包括智能体(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)、策略(Policy)和价值函数(Value Function)。其操作过程是一个智能体与环境交互、接收奖励反馈并不断改进策略的迭代循环。对于高维连续状态-动作空间的问题,深度强化学习(Deep RL)利用深度神经网络进行函数逼近,显示出强大潜力。
RL算法主要分为三类:基于值的方法(如DQN, REDQ)、策略搜索方法(如REINFORCE)以及结合两者的演员-评论家方法(Actor-Critic,如DDPG, TD3)。文章指出,演员-评论家方法特别适合于扭矩矢量这类连续控制任务。
文章随后深入评述了多项将RL应用于扭矩矢量和能量优化的具体研究案例。例如,Deng等人提出的一种分层控制策略,高层使用非线性模型预测控制(NMPC),底层则采用启发式REDQ算法进行扭矩分配。该RL智能体通过考虑横摆率误差、稳定性指标、速度等多种状态,学习输出四轮扭矩指令,奖励函数同时权衡了安全性、能耗、驾驶员舒适度和轨迹精度。仿真结果表明,该方法在保证稳定性的同时,能实现最高11%的能耗节约。
Wei等人则探索了基于DDPG算法的模型自由扭矩矢量策略。该策略将控制问题建模为马尔可夫决策过程(MDP),RL智能体直接根据车辆状态(如横摆率、侧偏角)输出外部横摆力矩或轮毂电机扭矩,无需依赖轮胎模型。在CarSim-Simulink联合仿真中,该控制器在双移线等极端工况下表现出优于LQR和MPC的横摆稳定性。
为了提升学习效率和策略的泛化能力,Jafari等人将课程学习(Curriculum Learning)引入到TD3算法中。他们将训练过程分为三个阶段,逐步增加任务难度(从简单的转向输入变化到速度变化,再到随机的路面附着系数变化),引导智能体先掌握基础控制目标,再适应更复杂的场景。结果表明,结合课程学习的TD3控制器在收敛速度和应对未知场景方面表现更佳。
另一项由Jafari等人开展的研究对比了DDPG、TD3以及TD3结合课程学习三种RL算法在实现AWD EV能量感知扭矩矢量控制方面的性能。研究设计了一个多目标奖励函数,同时惩罚横摆率误差、侧偏角、轮胎滑移率以及基于永磁同步电机(PMSM)效率图的功率损失。与基于模型的LQR结合序列二次规划(LSQP)和SMC结合SQP(SSQP)基线方法相比,TD3类算法在保持车辆稳定性的同时,展现了更高的能量效率。例如,在特定工况下,TD3智能体的平均效率可达86.95%。
这些案例研究表明,模型自由的RL控制器在处理EV动力学中的非线性和不确定性方面具有显著优势。它们能够自适应地调整控制策略,无需精确的车辆模型,并为同时优化稳定性和能量效率等多目标问题提供了更直接的框架。
尽管RL在扭矩矢量控制中展现出巨大潜力,文章也指出了当前面临的挑战和未来研究方向。这些挑战包括深度RL算法的样本效率低、训练好的策略在真实环境中的泛化能力(模拟到真实的差距)、安全性保障以及策略的可解释性差等。未来的研究可能集中于开发混合控制架构(结合RL与经典控制方法)、利用车联网(V2X)信息进行协同控制、探索多智能体RL用于多执行器协调,以及进一步提高算法的数据效率和安全性。
综上所述,这篇综述系统性地阐述了强化学习技术在电动汽车扭矩矢量控制领域的研究现状。通过分析多种RL算法及其应用案例,文章论证了RL在提升车辆横摆稳定性、优化能量消耗以及实现多目标协同控制方面的有效性和适应性。与传统模型基方法相比,RL提供了一种更具灵活性和学习能力的解决方案,尤其适合于复杂动态环境下的实时控制。尽管存在样本效率、安全性和实际部署等挑战,但RL为未来高性能、高能效电动汽车控制系统的设计指明了一个充满希望的方向。随着算法不断进步和计算资源的增强,RL有望在电动汽车的智能化控制中发挥越来越重要的作用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号