基于强化学习的电力系统网络智能渗透策略研究：SPIND-DQL框架的提出与验证

《Journal of Cyber Security and Mobility》：An Intelligent Penetration Strategy for Power System Networks Using Reinforcement Learning

【字体：大中小】 时间：2025年12月19日 来源：Journal of Cyber Security and Mobility CS2.9

编辑推荐：

　　本文针对电力系统网络安全面临的复杂威胁，提出了一种基于强化学习的自主渗透测试框架SPIND-DQL。该研究将渗透测试建模为马尔可夫决策过程，通过集成NoisyNet、Dueling架构、优先经验回放、内在好奇心模块和Soft Q-Learning等先进技术，显著提升了攻击路径探索的效率和效果。实验表明，该方法在收敛速度和资产攻陷数量上均优于基线算法，为电力系统网络安全评估提供了智能化的实用工具。

随着智能电网、分布式能源和先进通信技术的深度融合，现代电力系统正经历着快速的数字化转型。这种日益增长的互联性，特别是信息技术和操作技术的融合，在提升运营效率和可靠性的同时，也使电力基础设施暴露在各种复杂的网络安全威胁之下。高级持续性威胁、数据篡改、拒绝服务攻击和虚假数据注入攻击等威胁可能危及系统完整性，中断服务，甚至在极端情况下通过网络入侵引发物理破坏，导致关键能源网络出现级联故障。

为确保这类信息物理系统的安全性和韧性，渗透测试已成为在恶意攻击者利用漏洞之前主动识别系统脆弱性的关键技术。然而，传统的渗透测试方法严重依赖人工操作和领域专业知识，导致成本高、耗时长且难以扩展。面对电力系统日益复杂和动态化的演进，业界迫切需要更加智能、自适应和自动化的渗透测试解决方案。

在此背景下，强化学习技术展现出独特优势。与混合整数线性规划等静态优化方法或其他人工智能方法相比，强化学习尤其擅长在不确定性和部分可观测环境下的序列决策问题——这正是渗透测试过程的典型特征。虽然遗传算法能够找到多样化的攻击路径，但强化学习的价值函数方法使其能够学习并优化适应环境状态的策略，而不仅仅是为静态配置寻找单一最优路径。深度强化学习的最新进展为解决这些局限性提供了充满希望的方向。

强化学习智能体能够通过与环境的交互来学习最优策略，这使其成为在动态和部分可观测的网络场景中建模攻击行为的理想选择。尽管先前的研究已经将深度强化学习广泛应用于电力系统的资源分配、故障恢复、异常检测和网络防御等任务，但对攻击者行为建模和自动化渗透过程仿真的关注明显不足，特别是在电力系统独特的运行约束和网络拓扑背景下。

为了填补这一研究空白，研究人员提出了一种专门针对电力系统网络环境的基于强化学习的自动化渗透测试工具。通过将渗透过程建模为马尔可夫决策过程，研究团队设计了一个增强型深度Q网络框架SPIND-DQL，该框架集成了多种优化技术，包括NoisyNet、Dueling架构、优先经验回放、内在好奇心模块和Soft Q-Learning。虽然前三个组件是Rainbow DQN智能体的标志性特征，但本研究的主要贡献在于使用ICM和Soft Q-Learning对这一强大基线进行了增强。研究人员认为，这种特定组合特别适合渗透测试任务：ICM为探索稀疏奖励的攻击路径提供了内在动机，而Soft Q-Learning基于熵的正则化鼓励采用随机策略，从而能够逃离次优攻击模式并适应动态防御。

本研究在微软的CyberBattleSim仿真框架中实现并评估了所提出的方法，并对其进行了扩展以反映电力系统架构的具体特征。实验结果表明，与基线DQN变体和Rainbow DQN基线相比，SPIND-DQL智能体在收敛速度、奖励积累和渗透效果方面均表现出优越性能。

本研究采用了几项关键技术方法：首先将电力网络渗透测试问题形式化为马尔可夫决策过程，明确定义了状态、动作和奖励空间；其次提出了SPIND-DQL这一新型深度强化学习框架，它集成了Dueling架构、NoisyNet、优先经验回放、内在好奇心模块和Soft Q-Learning；实验在适配电力系统特征的CyberBattleSim环境中进行，通过与传统启发式攻击器和多种DQN基线（包括强大的Rainbow DQN）的比较来评估性能；此外还进行了完整的消融研究以验证各组件贡献。

4.1 网络场景

图1展示了一个模拟的电力控制系统网络拓扑，采用三层分层结构以反映真实世界架构。攻击场景从边界开始，初始被攻陷的节点利用本地漏洞获取凭证或发现bash历史记录以寻找其他主机引用。Web层由1到9号站的Web服务器组成，为变电站和控制中心提供HTTP/HTTPS服务。攻击者可利用该层的SQL注入等漏洞提升对DNP控制节点或控制中心PI服务器的访问权限。DNP控制层包含相同站点的DNP从节点，通过DNP协议提供SCADA服务，攻陷这些节点可实现物理级攻击（如引发电压不稳定）。最终层包括控制中心的PI服务器，用于存档关键运行数据，是篡改监控系统或隐藏恶意活动的潜在目标。该拓扑模拟了从初始入侵到物理破坏的完整攻击路径，阐明了信息物理系统中网络漏洞与物理后果之间的相互作用。

基于上述网络拓扑和攻击过程，研究人员定义了强化学习智能体的动作空间以模拟跨网络和物理层的敌对活动链的不同阶段。动作空间包括与攻击链不同阶段相关的多样化行为集。远程攻击动作（如扫描已发现节点）允许智能体枚举可达主机和服务。本地攻击动作涉及使用先前收集的凭证列出漏洞，实现针对性利用。通过认证动作，智能体尝试使用有效凭证提升权限或横向移动。网络扫描动作支持更广泛的侦察以发现环境中的新节点。恢复镜像动作代表防御性操作（如将受陷节点重镜像至干净状态）。此外，修改配置动作使智能体能够模拟更深层的系统操纵，如更改防火墙规则、更新资产风险状况或终止关键服务。休眠动作允许智能体在回合中暂停操作，模拟隐蔽行为或决策延迟。这些动作共同使强化学习智能体能够逐步探索和利用拓扑，反映真实世界的敌对行为，支持信息物理安全场景中攻防策略的建模。

4.3 结果与分析

训练奖励结果表明，SPIND-DQL在训练期间获得了比其他变体更高更快的期望奖励，其次是DDQN、Dueling-DQN、DQN和PER-DQN。网络可用性结果指出，SPIND-DQL智能体在所有基线DQN智能体中实现了最低的网络可用性，意味着它成功攻陷了最多数量的资产节点——在800步内超过25%。因此，提出的SPIND-DQL攻击器在学习阶段的模拟网络环境中表现出最佳的网络渗透性能。

4.4 评估、敏感性与消融研究

评估阶段的结果强有力地支持了研究假设。SPIND-DQL比强大的Rainbow DQN基线获得了高出15%的平均奖励，比启发式攻击器提高了104%，证明了其卓越的有效性。在效率方面，首次攻陷时间指标至关重要；SPIND-DQL比Rainbow快32%找到第一个关键节点。此外，学习策略的稳定性得到增强，其奖励标准差低于Rainbow和其他DQN变体，表明攻击策略更加可靠且不易波动。结果清楚地表明SPIND-DQL优于所有基线，包括强大的Rainbow DQN智能体。它获得了最高奖励、最低网络可用性和最快的首次攻陷时间。这验证了ICM和Soft Q-Learning的加入在这一复杂探索任务中提供了显著优势的假设。

超参数敏感性方面，表2所列的超参数通过初步调优确定。虽然完整的网格搜索在计算上不可行，但消融研究本身充当了对模型核心组件的敏感性分析。例如，缺少Soft Q-Learning或ICM导致的显著性能下降表明对这些组件的高度敏感性。研究人员还观察到熵系数α至关重要；过高的值会导致过于随机（低效）的策略，而过低的值则会使探索收益无效。值α=0.1为此环境提供了探索与利用的最佳平衡。

消融研究为了验证每个组件的贡献，研究人员进行了消融研究，从完整的SPIND-DQL智能体中移除关键组件。表4显示了对利用阶段性能的影响。移除ICM或Soft Q-Learning均导致性能显著下降，证实了它们的重要性。完整的SPIND-DQL模型优于Rainbow基线，证明了所添加组件的协同效益。

针对更强防御的鲁棒性方面，研究人员还评估了训练后的SPIND-DQL智能体对抗每50步主动修补前3个最常被利用漏洞的"启发式防御器"的表现。面对这种动态防御，SPIND-DQL的平均奖励降至约4500，但仍优于Rainbow智能体。这表明ICM鼓励的探索和Soft Q-Learning产生的随机策略使SPIND-DQL在主路径被阻塞时能够更好地适应并找到替代攻击路径。

本研究通过将渗透测试建模为马尔可夫决策过程，并利用增强的深度强化学习算法成功解决了电力系统自动化渗透测试的挑战。基于各种DQN方案的相关工作，研究人员提出的SPIND-DQL集成了NoisyNet、Dueling架构、优先经验回放、内在好奇心模块和Soft Q-Learning，以提高探索效率。这些优化机制共同指导智能体的探索，从而降低了训练过程中的试错成本。通过使用微软CyberBattleSim框架进行的仿真实验评估了所提出的方法，该框架被适配以代表电力系统网络拓扑。结果表明，SPIND-DQL在大型复杂电力系统场景中实现了更好的收敛和性能。消融研究确认了ICM和Soft Q-Learning组件的显著贡献，而首次攻陷时间等评估指标进一步验证了其相对于Rainbow DQN和启发式攻击器等强大基线的效率。

这项研究不仅为电力系统安全评估贡献了一种新颖的进攻性强化学习方法，还支持开发自适应和智能的红队工具，从而指导设计更强大的网络防御策略。然而，从该仿真过渡到真实世界的电力系统面临着重大挑战。真实世界的状态空间要大得多，行动带有真实的物理风险，并且观测噪声要大得多。实际实施至少需要目标系统的高保真数字孪生和强大的安全联锁装置，以防止在训练或测试期间产生意外的物理后果。未来的研究可以聚焦于将这一进攻性智能体集成到更广泛的博弈论框架中，使其与自适应的"防御性智能体"同时训练，以共同演化出更强大的进攻和防御策略。

热点排行