基于强化学习的物联网（IoT）无线传感器网络（WSN）中的智能能源感知路由

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Ad Hoc Networks》：Intelligent energy-aware routing in IoT-based WSNs by reinforcement learning

【字体：大中小】 时间：2026年03月28日 来源：Ad Hoc Networks 4.8

编辑推荐：

　　RLCR协议基于强化学习实现异构无线传感器网络自适应路由，通过动态簇头选择与多跳Q-learning优化能耗，仿真显示网络寿命提升且能效优于传统方法如Q-LEACH。

伊克拉姆·达努内（Ikram Daanoune）|阿卜杜纳塞尔·巴格达德（Abdennaceur Baghdad）

摩洛哥卡萨布兰卡哈桑二世大学（Hassan II University of Casablanca）国家电力与机械高等学院（National Higher School of Electricity and Mechanics）电气工程系（Department of Electrical Engineering）能源与电气系统实验室（Energy and Electrical Systems Laboratory）

摘要

基于人工智能（AI）的无线传感器网络（WSNs）在智能、实时的物联网（IoT）应用中代表了重大进展，它们提供了高效的数据收集与分析能力，以及在动态环境中的自适应决策功能。在此背景下，我们提出了一种名为RLCR（基于强化学习的聚类与路由，Reinforcement Learning-based Clustering and Routing）的新节能路由协议，该协议适用于异构WSNs并与IoT兼容。我们的RLCR协议在两个层面运用了强化学习（RL）：（1）根据剩余能量和到基站的跳数动态选择簇头（CH）；（2）通过基于Q学习的算法实现多跳簇间路由。RLCR通过奖励函数动态调整网络参数，该函数考虑了剩余能量、通信距离和能量平衡。此外，我们的方法还整合了定期自适应重聚和Q值更新机制，以动态适应网络拓扑变化和能量消耗情况。仿真结果表明，RLCR在延长网络寿命和降低能耗方面优于传统的Q学习和EER-RL协议。这些结果展示了AI驱动的路由技术在提升未来IoT生态系统中WSNs的可扩展性、能效和智能化方面的潜力。

引言

无线传感器网络（WSNs）被广泛应用于物联网（IoT）、环境监测和智慧城市等领域。WSNs由分布式空间传感器节点组成，这些节点能够检测物理或环境参数，就地处理收集的数据，并与其他节点或中央基站进行无线通信[1]。它们在自主运行以及复杂或难以到达的环境中的能力，使得WSNs能够应用于环境监测、智能农业、工业自动化、医疗保健和防御系统等多个领域[2][3]。然而，WSNs受到动态网络拓扑、可扩展性挑战和有限能量资源的限制。大多数传感器节点使用不可充电电池供电，这使得能耗成为决定网络可靠性和耐用性的关键因素[4]。部分节点的能量耗尽可能导致覆盖范围缺失、连接中断，最终引发网络故障[5]。因此，实施高效的路由协议对于延长网络寿命和保证数据传输的可靠性至关重要。为了提高能效和延长网络寿命，已经开发了多种基于聚类的方法。传统的聚类协议（如LEACH（低能耗自适应聚类层次结构，Low Energy Adaptive Clustering Hierarchy）及其变体[6][7][8]侧重于通过定期轮换簇头来平衡能耗。然而，这些协议仅基于概率选择簇头，未考虑网络动态或剩余能量平衡，导致在异构网络中的性能不佳。近年来，越来越多地使用人工智能（AI）技术（如模糊逻辑、元启发式算法和机器学习）来优化WSNs中的基于聚类的路由。这些AI技术能够智能选择簇头、平衡能耗并适应网络动态，显著提升性能。已有大量研究系统性地评估了这些方法[9]。强化学习（RL）被证明是WSNs中动态和自适应路由的非常有前景的AI技术。与传统路由协议不同，RL允许节点通过与环境的交互来学习最优的簇头选择和数据传输策略。通过持续适应网络条件（如节点能量水平、拓扑变化和流量模型），基于RL的路由可以延长网络寿命、平衡能耗并提高数据传输效率。多项研究证明了RL在资源受限的动态场景中的优越性[10]。在本文中，我们提出了RLCR（基于强化学习的聚类与路由），这是一种为异构无线传感器网络设计的节能且自适应的路由协议。尽管已有几种基于Q学习的WSN路由协议被提出，但其应用范围仍然有限。例如Q-LEACH主要利用强化学习选择簇头，但依赖于静态或单跳路由策略；EER-RL虽然通过强化学习优化了聚类能效，但未充分利用学习驱动的簇间路由优化。相比之下，RLCR将Q学习集成到簇头选择和簇间通信中，以优化能耗并提高路由可靠性。通过基于剩余能量、传输距离和负载平衡的奖励函数，RLCR比现有方法更有效地解决了能量不平衡和节点过早失效问题。仿真结果表明，RLCR实现了更均衡的能量分布，延长了网络寿命，并提高了数据传输效率，优于传统的Q学习和EER-RL协议。

本文的其余部分结构如下：第2节介绍簇头选择机制；第3节概述强化学习和Q学习；第4节回顾相关研究；第5节介绍RLCR协议中采用的无线能量模型；第6节详细阐述RLCR方案；第7节讨论仿真结果和结论；第8节总结本文并展望未来研究方向。

簇头选择

簇头选择对WSNs的能效和可扩展性至关重要。在聚类架构中，传感器节点被分组到各个簇中，每个簇由一个簇头管理，负责收集成员节点的数据并将其直接或通过多跳通信传输到汇聚节点。簇头的选择通常基于剩余能量、节点距离、通信成本和网络拓扑等指标。

强化学习概述

强化学习（RL）是一种机器学习方法，其中代理通过与环境的交互并接收奖励或惩罚形式的反馈来学习序列决策。与监督学习不同，RL不需要标记数据，而是依靠试错探索来逐步最大化累积奖励[10]。一个典型的RL系统包括四个关键组成部分：代理（agent）、环境（environment）、状态空间（state space）和动作空间（action space）。

无线能量模型

根据[6][26]提出的无线能量模型，能量消耗框架如图3所示。发射机包含电子电路和功率放大器，而接收机则配备专门的信号接收电路。当在距离d米的范围内传输b比特的数据包时，传输能量消耗（

E_{T}

）由公式（2）表示；相应的接收能量（

E_{R}

）由公式（4）定义。

提出的方案

在本节中，我们将详细介绍我们提出的WSNs智能路由协议RLCR（基于强化学习的聚类与路由）。RLCR是一种分层、节能且自适应的协议，它结合了聚类、基于Q学习的多跳簇间路由以及动态网络重构，以降低能耗并延长网络寿命。

簇头选择

每个节点计算一个Q值，该值评估其作为簇头的适用性。Q值综合考虑了...

仿真结果与讨论

通过MATLAB仿真评估了所提出的RLCR协议的性能。共100个传感器节点随机分布在100 × 100米的监测区域内，基站位于区域中心（50, 50），如图5所示。考虑了一个异构网络模型，其中节点的初始能量值范围为1 J到2 J。详细的仿真设置见表1。

结论与未来工作

本文介绍了一种基于强化学习的WSNs路由协议RLCR，该协议在簇头选择和簇间路径中使用了Q学习机制。通过考虑剩余能量、通信距离和负载平衡的奖励函数，RLCR能够动态学习网络条件，从而做出最优的路由决策。此外，它还实现了簇头间的多跳通信，以降低能耗并延长网络寿命。

CRediT作者贡献声明

伊克拉姆·达努内（Ikram Daanoune）：撰写——审稿与编辑、初稿撰写、可视化、验证、软件开发、资源准备、方法论设计、数据分析、概念化。阿卜杜纳塞尔·巴格达德（Abdennaceur Baghdad）：指导与监督。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文的研究工作。

联系信箱：

粤ICP备09063491号

摘要

引言