
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于强化学习的电力变压器差动保护早期分类优化框架ECPPO:实现速度与精度的动态平衡
【字体: 大 中 小 】 时间:2025年06月16日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对变压器保护中响应速度与诊断精度的平衡难题,研究人员创新性地将早期分类(EC)问题建模为马尔可夫决策过程(MDP),提出基于强化学习(RL)的ECPPO框架。该研究通过两阶段训练范式(多任务深度学习与PPO算法结合)和周期循环移位数据增强方法,实现了99.19%的测试精度与12.10 ms的平均响应时间,显著提升了从仿真系统到实验系统的泛化能力,为智能电网保护提供了新思路。
电力变压器作为电网的核心设备,其保护系统的快速性与准确性直接关系到电网可靠性。传统人工智能(AI)保护方法依赖固定长度数据采集,难以应对早期故障特征突现的场景,导致响应延迟。尽管波形特征法、模型法和数据驱动法(如深度学习)已广泛应用,但速度与精度的矛盾始终未解。早期分类(Early Classification, EC)虽在医疗诊断等领域有研究,但在电力保护领域尚属空白。
西安交通大学等机构的研究团队首次将EC问题引入变压器差动保护,提出基于近端策略优化(Proximal Policy Optimization, PPO)的ECPPO框架,成果发表于《Expert Systems with Applications》。该研究通过强化学习(Reinforcement Learning, RL)的动态决策能力,实现了数据长度自适应保护,同时突破RL算法泛化性差的瓶颈。
研究采用两阶段训练:第一阶段通过多任务深度学习(结合故障标签与信号重构任务)预训练特征提取模块,引入层归一化(Layer Normalization, LNL)增强特征表达;第二阶段冻结特征模块权重,利用PPO算法训练策略模型。创新性提出周期循环移位(Period-Circle-Shift)数据增强技术,通过波形片段重组提升样本利用率。实验数据来自PSCAD/EMTDC仿真与真实变压器系统。
1. 问题建模
将变压器保护转化为马尔可夫决策过程(MDP),定义状态空间(电流波形片段)、动作空间(继续观测/触发保护)和奖励函数(精度与延迟惩罚)。
2. 两阶段训练
多任务预训练阶段使特征提取模块的F1-score提升7.3%;PPO训练阶段通过优势函数裁剪(Advantage Function Clipping)稳定策略更新,验证了冻结权重的必要性。
3. 数据增强
周期循环移位使样本利用率提高42%,尾端数据探索效率显著增强,测试集准确率波动降低2.1%。
4. 性能对比
ECPPO在实验系统中达到99.19%准确率(比固定长度方法高3.8%),平均响应时间12.10 ms(缩短35%),且仿真→实验的泛化误差仅0.6%。
该研究首次将EC与RL结合应用于电力保护领域,ECPPO框架的创新性体现在:
未来可探索多模态数据(如振动、温度)融合,进一步优化MDP状态空间设计。该成果为智能电网保护提供了可扩展的RL范式,其方法论亦可迁移至其他时序分类场景。
生物通微信公众号
知名企业招聘