面向城市异构网络的蜂窝无人机预测-反应式切换学习框架

《Electronics》：A Predictive-Reactive Learning Framework for Cellular-Connected UAV Handover in Urban Heterogeneous Networks

【字体：大中小】 时间：2025年12月26日 来源：Electronics 2.6

编辑推荐：

　　本综述提出了一种预测-反应式Q学习框架（PRQF），通过结合XGBoost分类器与Q学习智能体，优化了城市密集环境中无人机（UAV）在异构网络（LTE/5G NR）下的切换决策。该框架利用概率门控机制，在保持高吞吐量的同时，相较于标准3GPP A3事件触发方法，实现了平均84%（100 km/h）和83%（120 km/h）的切换次数减少，显著提升了链路稳定性与通信质量，为可靠的城市无人机通信提供了可适应、可扩展的解决方案。

引言

无人机在蜂窝网络中的快速集成给密集城市环境中维持无缝可靠连接带来了显著挑战。与地面用户不同，无人机在变化的高度运行，并以高速长距离飞行。它们频繁在基站之间切换，这可能降低网络性能，导致延迟增加、潜在切换失败和服务质量下降。无人机的高机动性和三维轨迹使其暴露于复杂的无线电信道条件下。它们通常与多个基站保持视距链路，但由于城市障碍物也会经历间歇性的非视距转换。传统的切换机制，如基于接收信号强度指示器和滞后阈值的技术，在地面网络中广泛使用，但难以处理无人机的动态移动性。这些条件导致信号质量波动和干扰增加，特别是来自共享相同频谱的地面用户。此外，现有的蜂窝基础设施针对地面覆盖进行了优化，基站天线通常使用下倾波束。因此，无人机通常通过天线旁瓣而非主波束连接，导致连接不稳定、更高干扰和更频繁的切换。

为了说明这些挑战，图1描绘了无人机在密集城市环境中的行为，显示了它们通过位置A、B和C移动时与不同基站保持连接。黑色虚线代表无人机与基站之间期望的通信链路，而红色虚线表示来自邻近小区的干扰。随着无人机移动到重叠覆盖区域，信号强度发生变化，切换在突出显示的切换区域内发生。该图强调了与干扰、变化的链路质量和频繁小区转换相关的连接挑战，强调了自适应切换管理的必要性。

本研究提出了一种新颖的框架，将XGBoost用于预测性切换检测与基于强化学习的Q学习用于实时切换决策相结合。该框架在一个10 km × 10 km的模拟区域中进行评估，该区域包含一个LTE和5G NR基站的异构网络。四架无人机在5 km × 5 km的象限内运行，遵循正弦轨迹，总飞行路径约38.2 km。网络参数在1376秒的时间内每100毫秒采样一次。使用3GPP TR 36.777 UMa信道模型生成的数据集包括LOS/NLOS转换和频率复用-7方案，为开发测试智能切换策略提供了真实条件。在标准蜂窝网络中，3GPP A3事件触发切换方法当邻近小区的信号比服务小区强一个预定义余量时触发切换。虽然这种方法简单且广泛使用，但在高移动性和干扰条件下（如无人机场景），常常导致不必要的切换或链路失败。

所提出的框架引入了一个概率门控机制，将XGBoost预测与Q学习决策连接起来。具体来说，XGBoost模型估计切换的可能性，当该概率超过校准阈值时，Q学习智能体启动对潜在切换动作的探索。这种设计减少了随机探索，并将学习集中在连接关键情况，提高了效率和稳定性。与大多数现有的基于情景的强化学习方法不同，所提出的方法使用连续学习过程。这种结构更好地反映了真实的无人机飞行，其中移动性和信道条件不间断地演变，允许智能体学习长期的信号和移动性模式。因此，与标准的3GPP A3事件触发方法和情景强化学习方法相比，该框架实现了更自适应和可靠的切换行为。基于此框架，本研究的主要贡献总结如下：

•
一个基于3GPP UMa信道模型、具有100毫秒分辨率的城市环境中无人机移动性和连接性的高保真模拟框架。
•
一个结合XGBoost进行预测性切换检测和Q学习进行自适应决策的切换管理框架。
•
所提出的PRQF框架在四个无人机操作象限中进行评估，并额外在一个5G主导的象限中进行测试。与A3事件触发方法相比，它在100 km/h时实现了平均84%的切换减少，在120 km/h时实现了83%的切换减少。

本文的其余部分结构如下。第2节回顾了关于无人机切换和移动性管理的现有文献，强调了维持无缝连接的挑战。第3节讨论了系统布局和问题表述，为提出的框架提供了基础。第4节概述了方法论，详细说明了XGBoost和Q学习如何集成以进行切换优化。第5节介绍了模拟结果和性能分析。最后，第6节总结了论文并讨论了未来工作的潜在方向。

技术现状

为地面用户设计的传统方法依赖于用户设备历史来预测目标基站。这显著减少了切换失败和乒乓效应。这些方法为更鲁棒的切换方案奠定了基础。多标准模糊逻辑框架通过考虑平均参考信号接收功率、参考信号接收功率变化率和基站流量负载等因素扩展了这一概念。这些框架改善了蜂窝连接无人机在多连接场景下的决策。然而，它们往往难以适应空中用户的动态高速特性。

为了应对这些限制，利用无人机特定移动性特征的先进策略已经出现。利用预配置飞行路径信息的路由感知算法实现了切换和失败的显著减少。它们有效地消除了乒乓效应并最小化了信令开销。高空平台站-地面网络中的切换跳跃进一步减轻了三维移动性的影响。这种方法降低了切换率，增强了覆盖范围，并提高了网络吞吐量。这些研究强调了将切换策略定制到空中用户特定需求的价值。

分析方法也有助于改进切换管理。随机几何已被用于优化多层无人机网络中基于距离和参考信号接收功率的关联。这些方法平衡无人机密度和高度，以最大化空中和地面用户的覆盖范围。图论和拉格朗日松弛技术已被提出，以在无人机任务期间最小化切换次数，同时保持通信质量。然而，这些方法通常依赖于精确的轨迹数据，这在动态城市环境中提出了挑战。移动网络的演进，特别是5G及以后，在超密集、三维设置中引入了额外的复杂性。这需要超越传统方法的技术来确保无缝的无人机连接。

机器学习通过实现对动态网络条件的自适应响应，彻底改变了无人机切换管理。基于机器学习的方法结合了无人机特定因素，如速度、高度和干扰。这些方法优化了切换和无线资源管理，解决了城市环境中的通信延迟等问题。为高移动性用户（如行驶的火车和无人机）量身定制的模糊逻辑控制器通过动态调整切换决策来增强服务质量和体验质量。尽管有这些进步，机器学习技术在实时切换预测和优化方面面临挑战，特别是在移动模式高度可变的密集城市环境中。

深度强化学习在克服这些限制方面显示出显著前景。一种基于近端策略优化的无人机切换决策方案与常规方法相比，将切换次数减少了高达76%。它还将超过-75 dBm的可靠连接时间维持在80%以上。类似地，一个使用深度强化学习与近端策略优化的主动切换决策框架采用了一个包含无人机位置、速度、方向和当前基站ID的状态空间，动作选择最优目标基站。奖励函数通过可调权重平衡切换惩罚与参考信号接收强度指示器奖励，在具有随机路径点移动性和简化路径损耗建模的三维模拟环境中实现了73-76%的切换减少。另一种方法将服务可用性感知的移动鲁棒性优化与深度Q网络相结合。该方法将服务可用性提高了40%以上，并将切换次数减少了50%以上。混合深度强化学习框架，如双深度Q网络，结合了多种机器学习技术来优化高移动性和小蜂窝部署中的切换决策。这些框架解决了密集网络中的频繁切换和干扰问题。无人机轨迹和切换管理的联合优化代表了进一步的进展。一种基于双深度Q网络的算法将切换减少了70%，干扰减少了18%，传输延迟仅略有增加。表1提供了关于无人机切换和连接管理的相关研究总结，突出了方法、操作环境和关键贡献。

一些研究通常通过假设直线轨迹和恒定速度，以及基本的路径损耗模型来简化无人机移动性。虽然这种简化降低了计算成本，但未能捕捉真实无人机任务中典型的横向运动。在这项工作中，无人机在固定高度遵循正弦飞行路径，提供平滑的横向移动和相对于基站的连续距离变化。这种轨迹模式反映了实际的监视和测绘操作，产生自然的信号波动，而没有基于路径点的移动性的随机性或突然变化。此外，在此配置下生成的数据集包括每架无人机超过13,000个具有13个同步特征的样本，提供了丰富的时空多样性，支持连接行为的准确学习。早期工作中使用的决策机制也施加了显著限制。基于模糊逻辑的方案依赖于预定义的隶属函数和静态分类，限制了对干扰变化或突然链路退化的适应性。同样，基于规则的方法依赖于固定阈值和离线计算，使其在动态信道条件和高速度无人机移动下效果较差。这些静态机制通常对信号波动响应太慢，导致不必要的切换或链路连续性下降。

深度强化学习方法为无人机切换管理引入了更大的适应性；然而，它们仍然面临显著的挑战。大多数在情景环境中训练，学习在每个固定持续时间的情景后重新开始。这种结构阻止了智能体保留移动性和信号质量之间的长期依赖关系，这对于连续的无人机操作至关重要。此外，诸如近端策略优化等策略上算法需要每次更新的新轨迹数据和大批量大小以稳定训练，增加了计算和内存需求。这些特性使得在无人机平台上实时实施变得困难，特别是因为切换决策本质上是离散的。为了克服这些问题，提出的PRQF引入了一个统一的设计，将基于XGBoost的概率预测与连续的Q学习策略适应相结合。这种组合消除了对静态阈值和情景重置的依赖，允许智能体在 uninterrupted flight 期间学习和适应。

系统布局与问题表述

本研究侧重于优化在10 km × 10 km区域内作为用户设备运行的蜂窝连接无人机的切换管理。该场景考虑了一个具有LTE和5G NR基站的异构网络，而无人机遵循预定义的正弦轨迹来模拟空中移动性。无人机分布在四个象限中，以确保空间多样性、平衡的网络负载和暴露于不同的覆盖条件。目标是在动态移动性和实时网络条件下评估切换性能和吞吐量，同时生成数据以支持未来基于强化学习的切换优化。模拟捕获了关键指标，如切换频率、信号质量和整体网络性能，这些通过空间轨迹、时间切换事件和统计分布进行分析。整体场景如图2所示，显示了LTE和5G NR基站部署以及四架无人机在指定象限中的正弦飞行路径。

网络由100个扇区化基站组成，包括50个LTE基站和50个5G NR基站。LTE基站工作在0.9 GHz，每扇区发射功率为36 dBm（4 W），天线高度为25 m，而5G NR基站工作在2.1 GHz，每扇区发射功率为39 dBm（7.94 W），天线高度为30 m。基站以1 km间距部署在网格上，通过网格中心的排列均匀分配给LTE或5G，确保密集和平衡的拓扑，如图2所示。这种放置结合扇区化，引入了覆盖、干扰和切换模式的空间变异性。与此设置对应的无人机移动参数总结在表2中。

每个基站采用三个扇区天线，每个覆盖120度方位角平面（0–120°, 120–240°, 240–360°），提供全360度覆盖。LTE带宽为5 MHz，5G NR带宽为10 MHz，支持高容量空中通信。LTE基站扇区配置为水平波束宽度30°，垂直波束宽度12°，电下倾角-6°，最大方向增益G_Sector= 18 dBi。相比之下，5G NR基站利用每扇区高分辨率24波束模式。每个波束覆盖水平波束宽度5°，24个波束在扇区内均匀间隔，从相对于扇区中心的-32°到+32°。这种安排导致波束之间的部分重叠，确保扇区的全120°覆盖。LTE和5G系统的天线增益使用以下方向性增益公式建模：

G(?, θ) = G_max? min( 12( (? ? ?_b) / ?_3dB)²+ 12( (θ ? θ_b) / θ_3dB)², A_m)

其中，

G_max: 最大天线增益（LTE: 18 dBi, 5G: 24 dBi）。

?, θ: 方位角和仰角。

?_b, θ_b: 波束中心角。

A_m= 20 dB: 最大衰减。

无人机在10 km × 10 km城市环境中以100 m的固定高度运行，每架无人机被限制在四个象限之一：(0–5 km, 0–5 km), (5–10 km, 0–5 km), (0–5 km, 5–10 km), 和 (5–10 km, 5–10 km)。在其象限内，每架无人机遵循由以下方程定义的正弦轨迹：

y(x) = (y_max+ y_min) / 2 + 0.8 ? (y_max? y_min) / 2 ? sin( 2πx / 1 )

其中，x从0到38.202 km变化，y_min和y_max代表相应象限的垂直边界，如第一象限的0和5 km。正弦波被缩放以产生0.8 H的峰峰值垂直位移，这对应于0.4 H的实际振幅，确保无人机保持在象限边界内。

正弦轨迹的周期为1 km，振幅被缩放为象限高度的80%以确保路径保持在边界内。约38.202 km的总路径长度对应于在5 km水平跨度上五个正弦周期的弧长，缩放以覆盖象限的整个水平范围。每架无人机以恒定速度移动，考虑了两个速度配置文件：100 km/h（27.78 m/s）和120 km/h（33.33 m/s）。引入这种速度变化是为了反映无人机任务要求的可能差异。位置更新每100毫秒发生一次，导致整个飞行过程中的离散步骤。使用频率复用-7方案控制小区间干扰，通过K均值聚类分配基站频率以减少同信道干扰。只有使用与服务基站相同频率的基站才对干扰有显著贡献，而其他基站由于功率控制和距离影响可忽略。模拟中使用的网络和天线配置总结在表3中

热点排行