基于强化学习的电力变压器差动保护早期分类优化框架ECPPO:实现速度与精度的动态平衡

【字体: 时间:2025年06月16日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对变压器保护中响应速度与诊断精度的平衡难题,研究人员创新性地将早期分类(EC)问题建模为马尔可夫决策过程(MDP),提出基于强化学习(RL)的ECPPO框架。该研究通过两阶段训练范式(多任务深度学习与PPO算法结合)和周期循环移位数据增强方法,实现了99.19%的测试精度与12.10 ms的平均响应时间,显著提升了从仿真系统到实验系统的泛化能力,为智能电网保护提供了新思路。

  

研究背景与意义

电力变压器作为电网的核心设备,其保护系统的快速性与准确性直接关系到电网可靠性。传统人工智能(AI)保护方法依赖固定长度数据采集,难以应对早期故障特征突现的场景,导致响应延迟。尽管波形特征法、模型法和数据驱动法(如深度学习)已广泛应用,但速度与精度的矛盾始终未解。早期分类(Early Classification, EC)虽在医疗诊断等领域有研究,但在电力保护领域尚属空白。

西安交通大学等机构的研究团队首次将EC问题引入变压器差动保护,提出基于近端策略优化(Proximal Policy Optimization, PPO)的ECPPO框架,成果发表于《Expert Systems with Applications》。该研究通过强化学习(Reinforcement Learning, RL)的动态决策能力,实现了数据长度自适应保护,同时突破RL算法泛化性差的瓶颈。

关键技术方法

研究采用两阶段训练:第一阶段通过多任务深度学习(结合故障标签与信号重构任务)预训练特征提取模块,引入层归一化(Layer Normalization, LNL)增强特征表达;第二阶段冻结特征模块权重,利用PPO算法训练策略模型。创新性提出周期循环移位(Period-Circle-Shift)数据增强技术,通过波形片段重组提升样本利用率。实验数据来自PSCAD/EMTDC仿真与真实变压器系统。

研究结果

1. 问题建模
将变压器保护转化为马尔可夫决策过程(MDP),定义状态空间(电流波形片段)、动作空间(继续观测/触发保护)和奖励函数(精度与延迟惩罚)。

2. 两阶段训练
多任务预训练阶段使特征提取模块的F1-score提升7.3%;PPO训练阶段通过优势函数裁剪(Advantage Function Clipping)稳定策略更新,验证了冻结权重的必要性。

3. 数据增强
周期循环移位使样本利用率提高42%,尾端数据探索效率显著增强,测试集准确率波动降低2.1%。

4. 性能对比
ECPPO在实验系统中达到99.19%准确率(比固定长度方法高3.8%),平均响应时间12.10 ms(缩短35%),且仿真→实验的泛化误差仅0.6%。

结论与意义

该研究首次将EC与RL结合应用于电力保护领域,ECPPO框架的创新性体现在:

  1. 动态决策:通过MDP建模实现数据长度自适应,突破固定采样限制;
  2. 泛化增强:两阶段训练与数据增强技术使PPO算法在跨系统场景中保持稳定;
  3. 工程价值:12.10 ms的响应速度满足继电保护速动性要求,99.19%的精度优于行业标准(95%)。

未来可探索多模态数据(如振动、温度)融合,进一步优化MDP状态空间设计。该成果为智能电网保护提供了可扩展的RL范式,其方法论亦可迁移至其他时序分类场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号