混合动力电动汽车的安全强化学习能量管理：一种监督式行为评估与修正方法

《Journal of Cleaner Production》：Safe reinforcement learning energy management for hybrid electric vehicles: A supervisory action assessment and correction approach

【字体：大中小】 时间：2026年02月06日 来源：Journal of Cleaner Production 10

编辑推荐：

　　针对深度强化学习在混合动力电动汽车能量管理中存在的安全风险，提出了一种安全强化学习策略。通过构建带安全标签的数据集并训练监督安全评估模型，结合物理信息驱动的动作修正机制，在保证系统安全的前提下显著提升能效（5.79-12.27%）。

李飞|李明杰|吴月|李恒|宋云东|黄志武

中南大学自动化学院，长沙，410075，中国

摘要

深度强化学习已被认为是一种有前景的混合动力电动汽车在线能源管理方法，对节能和减排做出了重要贡献。然而，在复杂驾驶条件下，深度强化学习的随机探索可能会违反关键部件的安全限制，从而限制其实际可靠性。为了解决这个问题，本文提出了一种用于混合动力电动汽车的安全强化学习能源管理策略。首先，从模拟驾驶条件和专家定义的安全规则构建了一个标记数据集。然后基于该数据集训练了一个监督式动作安全评估模型，以识别代理生成的不安全动作。其次，设计了一个基于物理的信息动作校正层，以最小程度调整任何检测到的不安全动作，确保输出动作始终在系统的安全操作范围内。在各种测试驾驶周期下的结果表明，与现有的深度强化学习方法相比，所提出的方法不仅有效确保了控制动作的安全性，还进一步提高了整体驾驶经济性，燃料消耗和电池衰减成本分别提高了5.79％–12.27％。所提出的方法被证明是环保且节能的。

引言

随着全球对环境保护和能源效率的日益重视（Wang等人，2025b），世界各国政府和监管机构不断引入更严格的法规来减少车辆燃料消耗和污染物排放（Li等人，2021）。在这种背景下，新能源汽车技术迅速发展（Li等人，2023），提供了各种创新解决方案，如纯电动汽车（Li等人，2025）、燃料电池电动汽车（Zhou等人，2025a）和混合动力电动汽车（HEVs）（Zhang等人，2025b）。其中，HEVs结合了内燃机和电动机的优点（Yang等人，2022），实现了更好的燃油经济性和更低的排放量，使其成为当前交通领域的关键过渡技术（Zhou等人，2025b）。作为HEVs的核心组成部分，能源管理策略（EMS）负责安全高效地分配不同能源之间的功率输出，从而提高能源效率（Wu等人，2024b）。

在过去十年中，HEVs的能源管理策略已经从基于规则的策略（Yan等人，2018）和基于滤波器的策略发展到全局优化方法，如动态规划（DP）（Peng等人，2017）和庞特里亚金最小值原理（Liu等人，2020），这些方法被认为是最佳基准。最近，深度强化学习（DRL）作为一种有前景的方法出现（Wu等人，2024d），其中EMS被建模为一个通过与环境的互动来学习最优控制策略的代理（Peng等人，2024）。深度神经网络被用来近似动作价值函数（Shi等人，2025），有效地处理连续状态和动作空间的复杂性（Jia等人，2024），并展示了卓越的优化性能和适应性（Guan等人，2025）。然而，基于深度强化学习的能源管理策略在预训练阶段面临安全问题。由于代理在自由探索过程中可能会探索不安全的操作点（Liu等人，2025），增加了系统运行风险，并对具有严格安全要求的实际应用构成了挑战（Zhang等人，2024）。因此，在确保系统安全的同时实现高效训练已成为一个关键问题（Jia等人，2025）。

为了解决这个问题，提出了几种安全强化学习解决方案（He等人，2024），这些解决方案可以大致分为两类：（1）结合奖励函数来限制探索空间；（2）嵌入专家知识或集成基于规则的控制来提高安全性。

第一种方法通过引入奖励惩罚来构建一个软约束机制（Wang等人，2026）。当系统进入不安全状态时，将惩罚信号纳入奖励函数中，有效地减少危险动作的奖励，并引导代理在学习过程中避免不安全行为（Xu和Lin，2024）。例如，Wu等人（2021）嵌入了针对电池过温和退化的奖励函数，显著提高了热安全性和延长了电池寿命。Hu和Li（2022）设计了一个新的奖励函数，将充电状态（SOC）限制在预定义的安全范围内，从而避免了与过充或过放相关的潜在风险。Liu等人（2021）在策略训练期间对不安全状态施加了惩罚，引导代理避免危险区域，同时保持能源管理性能，从而提高了整个系统的安全性。

第二种方法侧重于将基于规则或专家知识驱动的方法集成到DRL框架中，确保代理在整个学习过程中遵守物理可行性和操作安全约束（Liessner等人，2018）。这提高了策略的初始稳定性和鲁棒性。例如，Wu等人（2023）基于专家经验开发了一个先验控制机制，以优化动作空间并在早期训练阶段抑制不合理的探索，从而提高了燃油经济性和学习效率。Zhou等人（2021）构建了一个基于启发式的局部控制器，以消除次优的扭矩分布。Tang等人（2022）提出了一种结合基于规则的控制和DRL的发动机开关策略，以优化燃料消耗，同时防止不安全行为。Biswas等人（2024）引入了一种具有嵌入式安全层的基于物理的信息探索方法，增强了代理对关键安全约束的遵守性，而不影响优化性能。此外，在Wu等人（2024a）中，提出了一种置信度评估机制来评估DRL动作的可靠性；当置信度低时，激活基于规则的策略以确保在关键时刻的系统安全。

尽管这些有前景的研究实现了DRL在EMS中的安全和高效部署（Tang等人，2024），但在探索阶段的安全保证和控制策略的灵活性方面仍存在重大挑战：（1）在训练的早期阶段，代理在自由探索过程中可能会生成许多不安全动作，因此有效抑制这些行为同时保持探索能力以提高系统可靠性和适用性至关重要。（2）大多数当前的安全策略严重依赖于固定的规则判断或输出饱和机制，其刚性结构严重限制了策略的适应性和泛化能力，无法处理复杂和多变的实际驾驶条件。

为了弥补上述研究空白，本文提出了一种用于HEVs的安全深度强化学习能源管理策略，旨在提高动作灵活性和决策智能性，同时在早期训练阶段确保系统操作安全。在这项工作中，选择深度确定性策略梯度（DDPG）算法作为代表性示例来展示所提出框架的有效性。重要的是，核心设计是算法无关的，可以与其他策略优化方法（如双延迟深度确定性策略梯度或软演员-评论家算法）无缝集成。本文的主要贡献如下：

1. 构建了一个包含安全状态标签的训练数据集，并开发了一个监督式动作安全评估模型，能够评估代理输出的控制动作的安全性。

2. 提出了一种基于物理的信息动作校正机制。当控制动作被识别为不安全时，该机制可以将其修改为符合系统安全约束的安全动作，同时尽可能保留原始的功率分配决策。

3. 在各种驾驶周期下进行了广泛的比较模拟，证明了所提出方法在安全性和总运营成本方面的有效性。

本文的其余部分组织如下：第2节探讨系统建模和安全考虑。第3节介绍了标记数据集的构建和基于安全强化学习的能源管理方法。第4节提供了模拟结果、比较和讨论。第5节总结了整篇文章。

章节片段

初步工作

本节首先介绍了HEV模型。随后，讨论了车辆运行过程中不安全控制信号可能发生的情况。

混合动力电动汽车的安全强化学习能源管理

本节提出了一种安全强化学习方法，其整体架构如图6所示。在这种方法中，首先由强化学习代理生成的初始动作由训练有素的动作安全评估模型进行安全性评估。如果动作被认为是不安全的，则触发基于物理的信息动作校正机制来修改和输出动作。整个框架由三个核心组件组成：动作安全评估模型、深度

结果与讨论

进行了广泛的模拟实验，以全面验证所提出方法的有效性，包括基于XGBoost的动作安全评估模型和基于物理的信息动作校正机制。随后，与现有的安全DRL方法进行了比较评估。最后，在不熟悉的驾驶周期下分析了这些方法的泛化能力。

结论

本文提出了一种基于安全强化学习的混合动力电动汽车能源管理策略，该策略同时提高了操作安全性和减少了排放。首先通过随机采样生成动作数据集，并使用专家标记的数据评估每个动作的安全性。在此基础上，使用XGBoost训练了一个动作安全评估模型，然后使用该模型评估代理输出的动作的安全性。当检测到不安全动作时，

CRediT作者贡献声明

李飞：撰写 – 审稿与编辑，撰写 – 原稿，资源，方法论。李明杰：撰写 – 原稿，验证，软件，方法论，撰写 – 审稿与编辑。吴月：撰写 – 审稿与编辑，方法论，形式分析，概念化。李恒：撰写 – 审稿与编辑，资金获取，监督。宋云东：撰写 – 审稿与编辑，软件。黄志武：撰写 – 审稿与编辑，监督，项目管理。

利益冲突声明

作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。

致谢

本工作部分得到了国家自然科学基金（授权号：52377221）的支持。

摘要

引言