基于聚类辅助双智能体强化学习的双层协作无人机通信网络轨迹与资源联合优化
《IEEE Transactions on Machine Learning in Communications and Networking》:Clustering-Assisted Deep Reinforcement Learning for Joint Trajectory Design and Resource Allocation in Two-Tier-Cooperated UAVs Communications
【字体:
大
中
小
】
时间:2025年12月24日
来源:IEEE Transactions on Machine Learning in Communications and Networking
编辑推荐:
为解决多无人机(UAV)通信网络中协作效率低、资源竞争激烈以及深度强化学习(DRL)算法泛化能力不足的问题,研究人员开展了一项关于双层协作无人机通信网络的研究。他们提出了一种聚类辅助双智能体软演员-评论家(CDA-SAC)算法,用于联合优化轨迹设计和资源分配。研究结果表明,该算法在无需重新训练的情况下,即可适应不同用户数量的场景,并在系统公平能量效率方面显著优于现有基线算法,为动态低空应用提供了高效、公平的通信服务保障。
在当今万物互联的时代,地面通信网络正面临着用户数量激增与基础设施不足的双重压力。为了应对这一挑战,无人机(Unmanned Aerial Vehicles, UAVs)凭借其高机动性、低成本和按需部署的优势,被视为构建未来低空通信网络的关键技术。然而,随着应用场景的日益复杂,单无人机系统因其有限的机载资源和覆盖能力,难以满足大规模用户的高质量服务需求。虽然多无人机系统能够通过协同部署提升性能,但无人机之间的协作与竞争关系,以及由此产生的复杂优化问题,极大地增加了系统成本和管理难度,成为制约其发展的瓶颈。
针对上述问题,南京航空航天大学的研究团队在《IEEE Transactions on Machine Learning in Communications and Networking》上发表了一项创新性研究。他们设计了一种集中控制的双层协作无人机通信网络,并提出了一种名为聚类辅助双智能体软演员-评论家(Clustering-assisted Dual-agent Soft Actor-Critic, CDA-SAC)的算法,旨在通过联合优化无人机的轨迹设计和资源分配,最大化系统的公平能量效率。
为了开展这项研究,研究人员主要运用了以下关键技术方法:首先,他们构建了一个包含中央无人机(Central UAV, C-UAV)和边缘无人机(Marginal UAVs, M-UAVs)的双层网络架构,其中C-UAV作为控制中心负责决策,M-UAVs负责为地面用户(Ground Users, GUs)提供通信服务。其次,他们提出了一种基于改进K-means聚类和Kuhn-Munkres(KM)匹配算法的M-UAVs轨迹设计与用户关联方法,以降低问题复杂度。最后,他们设计了一种基于软演员-评论家(Soft Actor-Critic, SAC)算法的双智能体深度强化学习框架,用于联合优化C-UAV的轨迹和功率分配,并引入了奖励缩放技术以稳定训练过程。
研究人员首先提出了一种基于聚类和匹配的算法,用于解决M-UAVs的轨迹设计和用户关联问题。该算法将动态移动的地面用户(GUs)划分为K个簇,然后通过KM匹配算法将M-UAVs与这些簇进行最优匹配,以最小化M-UAVs的总飞行距离。仿真结果表明,与传统的K-means算法相比,该算法能够将M-UAVs的总飞行距离减少约85%,总能耗降低约40%。此外,该算法通过将用户关联问题转化为簇的匹配问题,使得后续的深度强化学习算法能够处理可变数量的用户,从而显著提升了算法的泛化能力。
在C-UAV的轨迹设计和资源分配阶段,研究人员提出的CDA-SAC算法在训练过程中表现出优异的性能。与基于多智能体深度确定性策略梯度(Multi-agent Deep Deterministic Policy Gradient, MADDPG)和基于多智能体近端策略优化(Multi-agent Proximal Policy Optimization, MAPPO)的基线算法相比,CDA-SAC在累积公平能量效率和累积奖励方面均取得了显著提升。此外,通过引入双智能体策略和奖励缩放技术,CDA-SAC有效解决了单一智能体网络难以同时处理连续速度动作和离散功率分配动作的问题,并避免了训练过程中的梯度爆炸,确保了算法的稳定收敛。
在评估阶段,CDA-SAC算法在不同用户数量和不同最大发射功率条件下均表现出卓越的性能。当用户数量从10个增加到30个时,CDA-SAC算法的总公平能量效率始终高于其他基线算法,且性能下降幅度较小,显示出其强大的泛化能力。在最大发射功率从1W增加到5W的过程中,CDA-SAC算法的性能提升幅度最大,表明其能够更有效地利用增加的功率资源来提升系统性能。特别值得注意的是,CDA-SAC算法在无需重新训练的情况下,即可适应不同用户数量的场景,这在实际应用中具有极高的价值。
研究人员还对比了CDA-SAC算法与固定功率分配(CDA-SAC-FP)算法下C-UAV的飞行轨迹。结果显示,经过充分训练后,CDA-SAC算法生成的C-UAV轨迹更加稳定,飞行距离更短。这是因为CDA-SAC算法能够同时优化功率分配,从而进一步降低了C-UAV的飞行能耗,提升了系统的能量效率。此外,C-UAV的轨迹呈现出不规则的形态,这是其根据地面用户的动态位置不断调整飞行速度和角度的结果,体现了算法在动态环境中的适应性。
本研究成功设计并验证了一种用于双层协作无人机通信网络的CDA-SAC算法。该算法通过将复杂的联合优化问题分解为M-UAVs轨迹设计与用户关联、以及C-UAV轨迹设计与资源分配两个阶段,有效解决了多无人机系统中的协作与竞争难题。研究结果表明,CDA-SAC算法不仅能够显著提升系统的公平能量效率和用户服务公平性,还具备强大的泛化能力,能够在不同用户数量的场景下直接部署而无需重新训练。这项研究为动态低空通信网络提供了一种高效、公平且适应性强的解决方案,对推动无人机在应急通信、智慧城市等领域的应用具有重要意义。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号