《Battery Energy》:Optimal Control of Mobile Energy Storage via Knowledge-Guided Deep Reinforcement Learning
编辑推荐:
移动电池储能系统(MBESSs)虽常用于提升电力系统稳定性,但其移动特性亦为企业通过能源套利获利创造了良机。该收益高度依赖于时机与位置决策,并受电价波动与交通状况等不确定因素影响。然而,考虑长期收益与这些不确定性的最优实时控制策略需要大量计算资源。针对该问题,
移动电池储能系统(MBESSs)虽常用于提升电力系统稳定性,但其移动特性亦为企业通过能源套利获利创造了良机。该收益高度依赖于时机与位置决策,并受电价波动与交通状况等不确定因素影响。然而,考虑长期收益与这些不确定性的最优实时控制策略需要大量计算资源。针对该问题,本文提出了面向MBESS市场套利收益最大化的深度强化学习框架。在该框架内,研究人员引入知识辅助深度确定性策略梯度(KA-DDPG)算法以更高效地学习最优策略。KA-DDPG的核心创新在于其概率混合动作选择机制,该机制统一整合智能体习得策略、离线专家准则与随机探索以管理复杂的混合动作空间。此外,研究实施了两阶段引导策略以实现从基于离线准则到基于实时准则动作的过渡,确保计算约束下的学习加速与策略鲁棒性。严格的统计评估表明,所提出的KA-DDPG方法较最先进的软演员-评论家(SAC)基线平均收益提升3%—7%。同时,该算法展现出卓越的策略稳定性,与标准深度强化学习(DRL)基线相比方差降低逾60%,与确定性闭环模型预测控制(MPC)相比降低逾92%。KA-DDPG算法还显著加速了学习进程,验证了其在高不确定性下对MBESS实时控制的有效性。
## 一、研究背景与意义
随着可再生能源规模化并网,电力系统波动性显著增强,电网稳定运行面临严峻挑战,节点电价波动亦随之加剧。电池储能系统(BESSs)作为提供灵活性与快速响应能力的关键技术,在缓解上述问题中发挥重要作用。在此基础上,移动电池储能系统(MBESS)将电池集成于车辆平台,形成具有空间灵活性的动态资产,其应用范畴涵盖应急供电、无功支撑以及跨地域市场套利等多元化场景。
MBESS的优化控制面临电力网络、交通系统与电池动态特性的复杂耦合,传统研究方法主要分为基于模型与数据驱动两类。基于模型的方法依赖精确的数学表征,采用混合整数规划或随机优化等技术求解控制策略,虽在理论上有效,但存在模型构建困难、难以充分应对交通波动性等动态不确定性、实时计算成本高昂等局限。数据驱动方法,特别是深度强化学习(DRL),作为无模型的替代方案,通过与环境的试错交互直接学习最优控制策略,规避了精确系统建模的困境。已有研究将DRL应用于MBESS充电策略优化以最小化运营成本或最大化收益,但现有方法在处理MBESS固有混合动作空间方面尚未完善:离散路径决策与连续充放电功率决策的耦合对算法设计提出挑战,传统值基算法需对连续动作进行粗离散化,牺牲控制精度且组合路径探索效率低下。
为此,研究人员开展了面向MBESS收益最大化的知识辅助DRL框架研究,成果发表于《Battery Energy》。该研究旨在解决混合动作空间下的高效学习与实时控制难题,提出的KA-DDPG算法通过融合专家知识与概率探索机制,在提升平均收益的同时显著增强策略稳定性,为不确定性环境下的MBESS实时调度提供了兼具理论价值与实践意义的解决方案。
## 二、关键技术方法概述
研究基于IEEE 30节点系统构建仿真环境,电力系统采用澳大利亚能源市场运营商(AEMO)历史负荷数据求解交流最优潮流(AC-OPF)生成节点电价;交通系统以线路电阻表征路段距离,结合真实交通数据校准平均车速,通过正态分布扰动建模旅行时间不确定性;电池储能参数设定为容量6.75 MWh、初始荷电状态(SoC)50%、单时段最大充放电能量为总容量五分之一。
算法核心包含三项关键技术:其一,概率混合动作选择机制,以设定概率从智能体策略动作、离线优化准则动作与纯随机动作三者中选取执行动作;其二,两阶段准则动作生成策略,前期调用日前离线优化计划、末期实施短视域实时重优化,平衡计算效率与指导精度;其三,针对混合动作空间的DDPG架构改进,连续功率由演员网络直接输出,离散路径决策由评论家网络输出维数对应索引最大化确定。
## 三、研究结果
### 3.1 最优结果对比
通过30次独立运行的控制测试协议评估,所有策略从固定初始位置与50% SoC开始,期末剩余能量按末时段节点电价估值。结果表明,KA-DDPG在三个初始位置(Place 6、13、16)的平均日收益分别为416.05、409.15、405.20美元,较SAC提升3%—7%,较标准DDPG提升4%—8%,较开环控制提升逾20%,且较闭环MPC亦有3%—6%的优势。策略稳定性方面,KA-DDPG的标准差最小,在Place 13仅为3.35,较闭环MPC降低逾92%,较标准DDPG与SAC降低逾60%。最优、最差与平均情形对比显示,KA-DDPG最差案例如Place 16仍达约400美元,远超开环控制最差案例约200美元的水平,且收益分布最为集中。计算效率方面,KA-DDPG单回合执行时间约1.81秒,与标准DDPG、SAC相当,远优于需约2小时的开环与闭环优化方法,满足实时控制需求。
### 3.2 学习过程对比
在平均、最优与最差学习场景对比中,KA-DDPG平均约800次迭代超越开环控制性能阈值,而SAC与标准DDPG分别需逾1100次与1300次。最差情形下,知识辅助机制作为关键安全网,引导智能体远离劣质策略,而标准DDPG与SAC常陷入长期次优平台期。最优情形下,各方法差距缩小,因幸运随机种子可能使标准智能体快速发现优质策略。该结果揭示知识辅助的主要优势在于学习可靠性的显著提升与不利训练条件下的性能保障。
### 3.3 不同准则动作生成方法对比
针对两阶段引导策略超参数K(实时步数)与L(离线步数)的消融研究显示:仅增加实时指导步数K可加速收敛并提升最终性能,因实时动作基于最新状态最为准确,但计算成本较高;仅增加离线指导步数L时,初期学习加速,L=8时性能最佳,L增至16时最终收敛性能反而下降,因离线计划随时间推移逐渐过时,累积环境随机性导致误导。该结果验证了离线计划准确性衰减的分析,表明适度离线引导结合中期自主学习的平衡策略最为有效。
## 四、讨论与结论
研究提出的KA-DDPG框架通过概率混合动作选择机制整合离线优化计划与在线学习,有效解决了MBESS混合动作空间下的实时控制难题。模拟结果证实该方法在平均收益、策略/tsu稳定性与计算效率方面均具优势,不仅超越MPC方法,也优于理想化闭环基准,同时利润波动显著降低。离线准则与实时准则均被证实能有效加速学习,前者提供计算廉价的初始提升但效用随时间衰减,后者更为精确但资源消耗较大。
研究结论指出:本文提出了面向MBESS实时控制问题的DRL框架,将原控制问题重构为马尔可夫决策过程(MDP),并基于知识辅助DRL方法提出KA-DDPG算法。该框架遵循的原则是:尽管系统实时长期优化计算资源有限,但可利用离线生成的长期控制计划产生准则动作,并通过概率选择机制整合以加速RL智能体学习。仿真结果验证了KA-DDPG方法的关键优势,其平均性能不仅超越MPC方法,也优于理想化闭环基准,同时利润波动显著降低;与标准DDPG相比,该算法大幅加速学习进程,在早期阶段和最差训练条件下尤为明显。离线与实时准则动作均被证明能有效加速学习,二者存在权衡:实时指导更准确、最终性能更高但计算资源需求大,离线指导提供优秀的初始提升但效用随时间衰减。
未来研究方向包括:将框架拓展至多智能体DRL场景以管理MBESS车队;融入显式电价预测或采用循环神经网络捕捉时序电价动态以改善智能体主动决策能力;将线性电池老化假设扩展至非线性退化模型以提升策略保真度;以及从价格接受者假设转向价格制定者模型,显式考虑大规模MBESS运行的市场影响。