基于强化学习的FACTS设定点优化:有限测量下的电力系统协调控制新方法
《IEEE Open Access Journal of Power and Energy》:Reinforcement Learning for Optimizing FACTS Setpoints With Limited Set of Measurements
【字体:
大
中
小
】
时间:2025年12月18日
来源:IEEE Open Access Journal of Power and Energy 3.2
编辑推荐:
本文针对电力系统中柔性交流输电系统(FACTS)设定点优化难题,提出了一种基于强化学习(RL)的协调控制方法。研究通过在IEEE 14节点和57节点系统上的仿真验证表明,仅需每个FACTS设备配置少量相量测量单元(PMU)测量数据及约束违反信号,即可显著降低电压偏差和约束违反率。该研究为解决模型不确定性条件下的电力系统优化控制提供了数据驱动新思路,对推进新能源并网安全具有重要实践意义。
随着可再生能源和分布式能源的快速普及,电力系统正面临前所未有的电压波动挑战。这种波动不仅影响电能质量,更可能导致设备保护动作引发系统解列。传统解决方案是在关键节点安装柔性交流输电系统(FACTS)设备,但令人意外的是,这些昂贵设备在实际运行中大多采用固定设定点模式,未能充分发挥其动态调节潜力。究其原因,模型化控制方法面临实时网络模型不准确、数据更新慢等多重瓶颈。
在此背景下,瑞典皇家理工学院与日立能源联合研究团队在《IEEE Open Access Journal of Power and Energy》发表最新研究,创新性地将强化学习(Reinforcement Learning, RL)技术应用于FACTS设定点优化。研究团队设想了一种更贴近工程实际的场景:控制系统仅能获取有限个PMU测量数据,但可配备完整的约束违反监测信号。这种设置既利用了PMU高精度、高同步性的技术优势,又规避了传统方法对完整网络模型的依赖。
研究方法上,团队构建了约束部分可观测马尔可夫决策过程(CPOMDP)理论框架,采用Soft Actor-Critic(SAC)算法进行策略优化。特别值得关注的是,针对有限测量可能导致的约束漏检风险,团队创新性地引入动态模态分解(Dynamic Mode Decomposition, DMD)技术来指导PMU最优布点。实验设计覆盖IEEE 14节点和57节点系统,包含9种FACTS配置方案,通过准稳态仿真验证控制效果。
关键技术方法主要包括:①建立约束部分可观测马尔可夫决策过程(CPOMDP)数学模型,将电压偏差最小化和约束满足作为多目标优化问题;②采用Soft Actor-Critic(SAC)强化学习算法进行在线策略优化;③利用动态模态分解(DMD)分析系统动态特性,指导PMU最优布点;④设计多种测量配置方案(随机布点、DMD布点、完整测量)进行对比验证;⑤通过准稳态仿真平台(Julia+Python)评估控制性能。
研究选取IEEE 14节点和57节点标准测试系统,配置了包含静态同步补偿器(STATCOM)和晶闸管控制串联补偿器(TCSC)的多种FACTS组合方案。为模拟真实运行环境,研究人员引入了±10%-20%的阻抗波动,并采用实际负荷数据集生成时变运行工况。控制策略每5分钟调整一次FACTS设定点,与二次电压控制的时间尺度保持一致。
团队设计了三种观测类型:otv(仅电压测量)、otvi(PMU电压电流测量)和otlfa(完整测量信息)。通过对比发现,即使仅配备2个额外测量点/FACTS设备,RL控制器的电压控制效果已显著优于固定设定点基线。值得注意的是,随机布点方案虽然能改善电压偏差,但约束违反风险较高,而DMD指导的布点方案将未检测到的约束违反比例从74%降至可接受范围。
在IEEE 14节点系统中,配备完整约束信号的SAC MXC控制器将约束违反次数降低至基线水平的20%以下。图3显示,随着测量点数量增加,控制性能呈现单调提升趋势。而在更复杂的57节点系统中(图4),DMD布点方案(SAC MXDi)明显优于随机布点,特别是在约束满足方面表现出更强鲁棒性。这表明在大型网络中,测量点的智能选址对控制安全性至关重要。
通过分析STATCOM电压设定点(图14)和TCSC电抗值(图16)的时变曲线,发现最优控制器(MB)会大幅调整设定点以适应运行条件变化。而RL控制器(SAC M3Di)虽未完全跟踪最优轨迹,但通过动态调整成功避免了固定设定点方案出现的电压越限问题(图13)。图15显示的STATCOM无功出力变化进一步验证了RL控制器对系统动态的适应能力。
研究团队通过DMD模态分析(图17)发现了系统中动态特性最显著的节点,这些节点被选为PMU布点位置。实验表明,基于"分布内数据"的DMD布点方案(SAC MXDi)性能接近完整约束信号方案,而"分布外数据"方案(SAC MXDo)性能有所下降,提示数据质量对布点效果的影响。
从学习曲线(图11)可见,测量信息更丰富的控制器(SAC MFC)具有更快的学习速度,约5000时间步后性能趋于稳定。这表明充足的观测信息有助于加速策略收敛,但对最终性能起决定作用的仍是测量点的空间分布合理性。
研究结论表明,基于强化学习的FACTS协调控制可在有限测量条件下实现显著性能提升。在工程实践方面,该方法仅需在每个FACTS设备附近增加2-5个PMU测量点,配合完整的约束监测信号,即可在12周内通过在线学习达到优于固定设定点的控制效果。特别值得关注的是,DMD技术为PMU布点提供了理论指导,有效降低了75%以上的未检测约束违反风险。
讨论部分指出,该方法的优势在于完全避免了对精确网络模型的依赖,适应了FACTS装置通常缺乏实时模型的运行特点。然而,研究也承认在大规模系统中可能面临探索效率挑战,建议未来采用多智能体架构进行分布式控制。此外,约束信号目前仅考虑违反频率,未来可引入幅度、持续时间等多维安全指标。
这项研究为电力系统数字化升级提供了重要技术路径:通过融合强化学习与PMU先进测量,实现了"数据驱动替代模型驱动"的控制范式转变。随着PMU布点的持续推进,这种仅需有限测量基础设施的智能控制方法,有望成为应对高比例新能源接入下电网安全挑战的突破性解决方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号