基于强化学习的电力变压器差动保护早期分类优化框架ECPPO：实现速度与精度的动态平衡

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月16日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对变压器保护中响应速度与诊断精度的平衡难题，研究人员创新性地将早期分类（EC）问题建模为马尔可夫决策过程（MDP），提出基于强化学习（RL）的ECPPO框架。该研究通过两阶段训练范式（多任务深度学习与PPO算法结合）和周期循环移位数据增强方法，实现了99.19%的测试精度与12.10 ms的平均响应时间，显著提升了从仿真系统到实验系统的泛化能力，为智能电网保护提供了新思路。

研究背景与意义

电力变压器作为电网的核心设备，其保护系统的快速性与准确性直接关系到电网可靠性。传统人工智能（AI）保护方法依赖固定长度数据采集，难以应对早期故障特征突现的场景，导致响应延迟。尽管波形特征法、模型法和数据驱动法（如深度学习）已广泛应用，但速度与精度的矛盾始终未解。早期分类（Early Classification, EC）虽在医疗诊断等领域有研究，但在电力保护领域尚属空白。

西安交通大学等机构的研究团队首次将EC问题引入变压器差动保护，提出基于近端策略优化（Proximal Policy Optimization, PPO）的ECPPO框架，成果发表于《Expert Systems with Applications》。该研究通过强化学习（Reinforcement Learning, RL）的动态决策能力，实现了数据长度自适应保护，同时突破RL算法泛化性差的瓶颈。

关键技术方法

研究采用两阶段训练：第一阶段通过多任务深度学习（结合故障标签与信号重构任务）预训练特征提取模块，引入层归一化（Layer Normalization, LNL）增强特征表达；第二阶段冻结特征模块权重，利用PPO算法训练策略模型。创新性提出周期循环移位（Period-Circle-Shift）数据增强技术，通过波形片段重组提升样本利用率。实验数据来自PSCAD/EMTDC仿真与真实变压器系统。

研究结果

1. 问题建模
将变压器保护转化为马尔可夫决策过程（MDP），定义状态空间（电流波形片段）、动作空间（继续观测/触发保护）和奖励函数（精度与延迟惩罚）。

2. 两阶段训练
多任务预训练阶段使特征提取模块的F1-score提升7.3%；PPO训练阶段通过优势函数裁剪（Advantage Function Clipping）稳定策略更新，验证了冻结权重的必要性。

3. 数据增强
周期循环移位使样本利用率提高42%，尾端数据探索效率显著增强，测试集准确率波动降低2.1%。

4. 性能对比
ECPPO在实验系统中达到99.19%准确率（比固定长度方法高3.8%），平均响应时间12.10 ms（缩短35%），且仿真→实验的泛化误差仅0.6%。

结论与意义

该研究首次将EC与RL结合应用于电力保护领域，ECPPO框架的创新性体现在：

动态决策：通过MDP建模实现数据长度自适应，突破固定采样限制；
泛化增强：两阶段训练与数据增强技术使PPO算法在跨系统场景中保持稳定；
工程价值：12.10 ms的响应速度满足继电保护速动性要求，99.19%的精度优于行业标准（95%）。

未来可探索多模态数据（如振动、温度）融合，进一步优化MDP状态空间设计。该成果为智能电网保护提供了可扩展的RL范式，其方法论亦可迁移至其他时序分类场景。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号