深度强化学习在增程式电动车SOC自适应能量管理中的基准测试与性能优化

【字体: 时间:2025年10月06日 来源:Journal of Energy Storage 9.8

编辑推荐:

  本文系统评估了DDPG、TD3、SAC和PPO四种深度强化学习(DRL)算法在增程式电动车(REEV)能量管理策略(EMS)中的应用。创新性地提出基于动态规划(DP)先验知识的多目标奖励函数,实现SOC里程自适应控制,使最终SOC不受初始SOC或行程长度影响。SAC算法综合表现最优,训练复合循环下燃油消耗仅比DP高6.8%,电池欧姆损耗和安时吞吐量较功率跟随策略(PF)降低18.6%和10.4%。研究为DRL-EMS提供了统一基准和实用范式。

  
研究亮点
控制目标
对于增程式电动车(REEV)的能量管理问题,如引言所述,当前大多数研究聚焦于电量消耗-电量维持(CD-CS)模式,这无法充分发挥REEV动力架构潜力,且可能导致电池更频繁处于恶劣工况。与传统混合动力车(HEV)和其他插电混动车(PHEV)不同,REEV配备大容量电池组,使得全程SOC管理更为关键。因此,控制目标是让电池SOC在整个行程中智能充放电,最终收敛至目标值(本研究设为0.3),同时最小化燃油消耗和电池损耗。
训练设置
为提升智能体在不同驾驶条件下的性能和泛化能力,训练和测试循环均由多种特征的标准驾驶循环和真实驾驶循环拼接而成。包括:城市驾驶循环:UDDS(1369秒)、LA92(1435秒)、Japan10_15(660秒);高速公路驾驶循环:HWFET(765秒)、US06(600秒);复合驾驶循环:WLTC(1800秒)、NEDC(1180秒)、Artemis城市(993秒)、Artemis乡村道路(1082秒)、CLTC-P(1800秒)。
结论
本工作中,针对REEV,设计了一个包含动态SOC惩罚通道的多目标奖励函数,使得最终SOC无论初始SOC或行程里程如何都能向目标值收敛,并在统一测试框架内系统比较了四种基于DRL的策略——DDPG、TD3、SAC和PPO——的性能。在参数探索中,研究了奖励权重(0.1、0.5、1)和学习率(1e-5、1e-4、1e-3)对训练过程和最终性能的影响。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号