随着全球对环境保护和能源效率的日益重视(Wang等人,2025b),世界各国政府和监管机构不断引入更严格的法规来减少车辆燃料消耗和污染物排放(Li等人,2021)。在这种背景下,新能源汽车技术迅速发展(Li等人,2023),提供了各种创新解决方案,如纯电动汽车(Li等人,2025)、燃料电池电动汽车(Zhou等人,2025a)和混合动力电动汽车(HEVs)(Zhang等人,2025b)。其中,HEVs结合了内燃机和电动机的优点(Yang等人,2022),实现了更好的燃油经济性和更低的排放量,使其成为当前交通领域的关键过渡技术(Zhou等人,2025b)。作为HEVs的核心组成部分,能源管理策略(EMS)负责安全高效地分配不同能源之间的功率输出,从而提高能源效率(Wu等人,2024b)。
在过去十年中,HEVs的能源管理策略已经从基于规则的策略(Yan等人,2018)和基于滤波器的策略发展到全局优化方法,如动态规划(DP)(Peng等人,2017)和庞特里亚金最小值原理(Liu等人,2020),这些方法被认为是最佳基准。最近,深度强化学习(DRL)作为一种有前景的方法出现(Wu等人,2024d),其中EMS被建模为一个通过与环境的互动来学习最优控制策略的代理(Peng等人,2024)。深度神经网络被用来近似动作价值函数(Shi等人,2025),有效地处理连续状态和动作空间的复杂性(Jia等人,2024),并展示了卓越的优化性能和适应性(Guan等人,2025)。然而,基于深度强化学习的能源管理策略在预训练阶段面临安全问题。由于代理在自由探索过程中可能会探索不安全的操作点(Liu等人,2025),增加了系统运行风险,并对具有严格安全要求的实际应用构成了挑战(Zhang等人,2024)。因此,在确保系统安全的同时实现高效训练已成为一个关键问题(Jia等人,2025)。
为了解决这个问题,提出了几种安全强化学习解决方案(He等人,2024),这些解决方案可以大致分为两类:(1)结合奖励函数来限制探索空间;(2)嵌入专家知识或集成基于规则的控制来提高安全性。
第一种方法通过引入奖励惩罚来构建一个软约束机制(Wang等人,2026)。当系统进入不安全状态时,将惩罚信号纳入奖励函数中,有效地减少危险动作的奖励,并引导代理在学习过程中避免不安全行为(Xu和Lin,2024)。例如,Wu等人(2021)嵌入了针对电池过温和退化的奖励函数,显著提高了热安全性和延长了电池寿命。Hu和Li(2022)设计了一个新的奖励函数,将充电状态(SOC)限制在预定义的安全范围内,从而避免了与过充或过放相关的潜在风险。Liu等人(2021)在策略训练期间对不安全状态施加了惩罚,引导代理避免危险区域,同时保持能源管理性能,从而提高了整个系统的安全性。
第二种方法侧重于将基于规则或专家知识驱动的方法集成到DRL框架中,确保代理在整个学习过程中遵守物理可行性和操作安全约束(Liessner等人,2018)。这提高了策略的初始稳定性和鲁棒性。例如,Wu等人(2023)基于专家经验开发了一个先验控制机制,以优化动作空间并在早期训练阶段抑制不合理的探索,从而提高了燃油经济性和学习效率。Zhou等人(2021)构建了一个基于启发式的局部控制器,以消除次优的扭矩分布。Tang等人(2022)提出了一种结合基于规则的控制和DRL的发动机开关策略,以优化燃料消耗,同时防止不安全行为。Biswas等人(2024)引入了一种具有嵌入式安全层的基于物理的信息探索方法,增强了代理对关键安全约束的遵守性,而不影响优化性能。此外,在Wu等人(2024a)中,提出了一种置信度评估机制来评估DRL动作的可靠性;当置信度低时,激活基于规则的策略以确保在关键时刻的系统安全。
尽管这些有前景的研究实现了DRL在EMS中的安全和高效部署(Tang等人,2024),但在探索阶段的安全保证和控制策略的灵活性方面仍存在重大挑战:(1)在训练的早期阶段,代理在自由探索过程中可能会生成许多不安全动作,因此有效抑制这些行为同时保持探索能力以提高系统可靠性和适用性至关重要。(2)大多数当前的安全策略严重依赖于固定的规则判断或输出饱和机制,其刚性结构严重限制了策略的适应性和泛化能力,无法处理复杂和多变的实际驾驶条件。
为了弥补上述研究空白,本文提出了一种用于HEVs的安全深度强化学习能源管理策略,旨在提高动作灵活性和决策智能性,同时在早期训练阶段确保系统操作安全。在这项工作中,选择深度确定性策略梯度(DDPG)算法作为代表性示例来展示所提出框架的有效性。重要的是,核心设计是算法无关的,可以与其他策略优化方法(如双延迟深度确定性策略梯度或软演员-评论家算法)无缝集成。本文的主要贡献如下:
1. 构建了一个包含安全状态标签的训练数据集,并开发了一个监督式动作安全评估模型,能够评估代理输出的控制动作的安全性。
2. 提出了一种基于物理的信息动作校正机制。当控制动作被识别为不安全时,该机制可以将其修改为符合系统安全约束的安全动作,同时尽可能保留原始的功率分配决策。
3. 在各种驾驶周期下进行了广泛的比较模拟,证明了所提出方法在安全性和总运营成本方面的有效性。
本文的其余部分组织如下:第2节探讨系统建模和安全考虑。第3节介绍了标记数据集的构建和基于安全强化学习的能源管理方法。第4节提供了模拟结果、比较和讨论。第5节总结了整篇文章。