用于控制水下物联网中恶意软件传播的元强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Network Science and Engineering》：Meta-Reinforcement Learning for Controlling Malware Propagation in Internet of Underwater Things

【字体：大中小】 时间：2025年11月19日 来源：IEEE Transactions on Network Science and Engineering 7.9

编辑推荐：

　　针对水下物联网（IoUT）面临恶意软件攻击的问题，本研究提出基于注意力推理的元强化学习（AIBMRL）算法。通过AIB神经网络消除环境交互中的冗余信息，提升多智能体适应动态扰动的能力，实验验证其在不可见动态环境中的样本效率和推理能力优于传统方法。

摘要：

水下物联网（IoUT）的安全性容易受到恶意软件攻击的威胁。因此，及时控制恶意软件至关重要。然而，控制恶意软件的效率和效果也会受到IoUT通信条件变化的影响。传统的控制方法适应性较差，在这种场景下表现不佳。近年来，强化学习（RL）算法在不同领域展现了强大的适应性。但这些RL算法仅适用于静态环境，并且需要很长时间来构建稳定的策略，这使得它们难以快速适应新任务。为了解决这个问题，本研究提出了一种名为“基于注意力-推理的元强化学习”（AIBMRL）的算法。该算法创新性地构建了一个基于注意力-推理（AIB）的神经网络，以消除交互式环境时间状态中的冗余信息。这提高了多个元智能体根据环境干扰调整策略的能力。所提出的方法已与经过验证的最优控制基准进行了比较。实验结果表明，该算法在不可见的动态环境中具有更高的样本效率和更强的推理能力。

引言

随着智能技术的不断进步，水下物联网（IoUT）在海洋研究、环境保护、智能海洋和灾害预防等领域得到了更广泛的应用[1]、[2]、[3]。IoUT的持续运行严重依赖于安全稳定的通信条件[4]、[5]。值得注意的是，在实际的IoUT通信场景中，恶意软件的入侵和传播频繁发生[6]。恶意软件的攻击方法包括利用系统漏洞、发起分布式拒绝服务（DDoS）攻击、自我传播以及远程控制[7]、[8]、[9]。这些攻击通常会获取未经授权的访问权限，通过网络协议传播，并建立远程控制渠道进行操控[7]。恶意软件还可能从IoUT中窃取敏感信息和加密文件[8]、[9]。这对IoUT内设备的正常交互构成了严重威胁。为了解决这个问题，引入主动控制措施被认为是抑制恶意软件传播的最有前景的优化方法[6]、[10]。值得注意的是，当控制措施的强度或范围超过实现预期效果所需的最低限度时，就会出现过度控制的情况[10]。在我们之前的研究中[6]，提出了一个分数阶IoUT恶意软件传播模型。对含有恶意软件的水下设备进行补丁修复和通信隔离是关键的控制措施。然而，过度控制可能导致频繁打补丁或过度通信隔离。相反，过于保守的控制策略可能无法有效抑制恶意软件的传播[12]。因此，有必要施加适量的控制来抑制IoUT内恶意软件的传播。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号