面向配电网电压-无功控制的量子强化学习算法:一种参数高效的混合量子-经典架构
《IEEE Open Access Journal of Power and Energy》:Quantum Reinforcement Learning for Volt-VAR Control in Power Distribution Systems
【字体:
大
中
小
】
时间:2025年11月25日
来源:IEEE Open Access Journal of Power and Energy 3.2
编辑推荐:
本文针对主动配电网中高维状态空间和异构设备协调控制带来的计算挑战,提出了一种结合经典自编码器与变分量子电路的量子强化学习(QRL)算法(QE-SAC)。该算法通过自编码器压缩状态空间,利用量子电路高效学习控制策略,在IEEE 13、34、123节点系统中验证了其有效性。研究表明,所提方法仅需约1%的参数量即可达到或超越经典软演员-评论员(SAC)算法性能,并在含噪量子环境下保持稳健,为大规模配电网优化运行提供了新思路。
随着分布式能源和负荷波动性日益增强,配电网的稳定运行面临严峻挑战。其中,电压-无功控制(Volt-VAR Control, VVC)作为维持电压稳定、降低网损的关键手段,其重要性愈发凸显。传统的VVC方法依赖于电容组、电压调节器等设备的手动或基于模型的优化控制,但在应对高维、动态且耦合的配电网环境时,往往存在计算复杂、适应性不足等问题。近年来,深度强化学习(Deep Reinforcement Learning, DRL)展现出解决VVC问题的潜力,它能通过与环境的实时交互自主学习控制策略。然而,DRL模型通常参数规模庞大,存在过拟合风险,且训练过程计算开销高昂。
在此背景下,量子计算,特别是变分量子电路(Variational Quantum Circuit, VQC)的发展,为解决复杂优化问题提供了新途径。VQC作为量子领域的“神经网络”,能够利用量子叠加和纠缠等特性,以更少的参数实现强大的表示能力。将VQC与DRL结合的量子强化学习(Quantum Reinforcement Learning, QRL)应运而生,有望在保持性能的同时大幅提升模型效率。然而,现有的QRL方法在应对VVC这类具有高维状态空间和多设备协同控制的问题时,仍面临挑战,主要受限于当前量子硬件的约束以及缺乏对配电网特定问题的针对性设计。
为了弥补这一空白,来自美国南卫理公会大学和布鲁克海文国家实验室的研究团队在《IEEE Open Access Journal of Power and Energy》上发表了一项研究,提出了一种名为量子增强软演员-评论员(QE-SAC)的创新算法。该算法设计了一种端到端的混合架构,巧妙地将经典自编码器(Classical Autoencoder, CAE)、变分量子电路(VQC)和经典后处理层结合起来,专门用于解决配电网中的VVC问题。
研究人员开展此项研究,旨在开发一种参数高效、可扩展且稳健的QRL算法,以应对VVC问题中的核心挑战:高维状态空间、异构设备(如电压调节器、电容器、电池)的离散组合动作空间,以及交流潮流耦合效应。他们通过将VVC问题建模为马尔可夫决策过程(Markov Decision Process, MDP),并设计了一种混合的经典自编码器-变分量子电路(CAE-VQC)策略网络作为QE-SAC算法的核心。该架构利用自编码器将高维电网状态压缩至低维潜空间,再由VQC在该潜空间中进行量子增强的策略学习,最后通过经典层输出各控制设备的动作概率。
为开展研究,研究人员主要采用了以下几个关键技术方法:首先,构建了基于软演员-评论员(SAC)的强化学习框架,并引入了最大熵目标函数以鼓励探索。其次,设计了混合的CAE-VQC策略网络,其中自编码器通过预训练和周期性在线微调来适应动态的电网状态分布,VQC则采用包含编码层、变分层(使用Rx旋转门和CNOT门)和测量的结构,使用参数平移规则计算梯度。第三,针对VVC问题特点,设计了因子化的按设备策略表示和共享编码器的多头评论家网络,以高效处理异构设备的组合动作空间。数值仿真在IEEE 13节点、34节点和123节点这三个具有代表性的配电网系统中进行,使用PowerGym基准环境,并引入了 depolarizing 噪声模型来验证算法在含噪量子环境下的稳健性。
在IEEE 13节点、34节点和123节点系统上的实验结果表明,QE-SAC算法在累积奖励和电压违规等指标上均表现出色,且收敛速度优于对比算法。在13节点和123节点系统中,QE-SAC实现了零电压违规。与经典SAC算法相比,QE-SAC仅使用了约1%的参数量(例如,在123节点系统中,SAC需3,213,427个参数,而QE-SAC仅需42,329个),展现了极高的参数效率。虽然在较小系统(13节点)中因量子模拟开销导致壁钟时间稍长,但在更复杂的123节点系统中,QE-SAC凭借其更快的策略稳定能力,收敛时间(28.12分钟)显著短于经典SAC(45.58分钟),显示了其在大规模系统中的计算效率优势。
针对自编码器在线微调频率C的消融实验表明,当C=500时,QE-SAC能在表征适应性和训练稳定性之间取得最佳平衡,过频(C=100)或过疏(C=1000)的更新都会影响性能。
在模拟量子噪声(单量子比特门错误概率0.1%,双量子比特门错误概率1%)的环境下,QE-SAC表现出了良好的稳健性,其性能与无噪声环境下的结果相当。这主要归因于其浅层的VQC设计(2个变分层,8个量子比特)、较少的可调参数、经典自编码器的无噪降维以及后处理层的补偿作用。
与仅使用固定PCA编码器的量子-经典SAC(QC-SAC)和仅使用自编码器的轻量级经典SAC(SAC-AE)对比,QE-SAC的优越性能凸显了其协同自适应自编码器和量子-经典混合策略网络设计的必要性。QC-SAC性能略逊于QE-SAC,表明自适应编码的重要性;SAC-AE则无法收敛,说明量子电路的表示能力是关键。
本研究成功开发并验证了一种面向配电网电压-无功控制问题的量子强化学习算法QE-SAC。该算法通过创新的CAE-VQC混合架构,有效解决了VVC问题中的高维状态处理和异构设备协调控制难题。研究表明,QE-SAC不仅能够以极少的参数(约为经典方法的1%)实现优异控制性能,快速收敛,还展现出对当前量子硬件噪声的良好耐受性。这项工作将量子机器学习的优势与配电网的实际需求相结合,为应对未来高比例可再生能源接入下配电网的实时优化控制挑战提供了一种参数高效、可扩展且稳健的新方案,推动了量子计算在电力能源领域的应用边界。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号