基于深度强化学习与密集奖励的无人机未知环境路径规划方法

《IEEE Open Journal of Vehicular Technology》:A UAV Path Planning Method Based on Deep Reinforcement Learning with Dense Rewards

【字体: 时间:2025年12月18日 来源:IEEE Open Journal of Vehicular Technology 4.8

编辑推荐:

  为解决无人机在未知复杂环境中路径规划效率低、避障能力差的问题,研究人员开展了一项基于深度强化学习与密集奖励的无人机路径规划研究。他们提出了一种结合深度碰撞风险预测(DCRP)算法、跳跃连接策略网络和广义迁移学习(GTL)的优化框架。实验结果表明,该方法在任务成功率上比现有先进算法高出约20%,训练效率提升约39%,且推理时间保持在15ms左右,满足实时性要求,为无人机在未知环境下的自主导航提供了高效可靠的解决方案。

  
在当今科技飞速发展的时代,无人机(UAV)凭借其体积小、灵活性高、成本低的优势,已广泛应用于地形测绘、消防救援、物流运输等众多领域。然而,要让无人机真正自主、安全地完成这些任务,其核心挑战在于“路径规划”——即如何让无人机在没有先验地图的未知复杂环境中,仅凭自身传感器感知周围环境,就能智能地规划出一条从起点到终点的安全、高效飞行路径。
传统的路径规划算法,如A*、RRT(快速探索随机树)等,虽然在某些场景下表现出色,但它们大多依赖于对环境的全局、完整信息。在现实世界中,尤其是在茂密的森林或高楼林立的城市峡谷中,获取完整的地图信息往往非常困难,甚至是不可能的。此外,这些算法在面对动态变化的环境时,往往显得“反应迟钝”,难以适应实时决策的需求。
近年来,深度强化学习(DRL)为解决这一问题带来了新的曙光。它让无人机像人类一样,通过“试错”与环境交互,从经验中学习导航策略,而无需预先知道环境的全貌。然而,现有的基于强化学习的无人机路径规划方法依然面临诸多挑战。例如,在训练过程中,由于环境反馈的“奖励”信号稀疏(通常只有到达终点或撞毁时才有明确的奖励或惩罚),导致学习效率低下,训练过程漫长且不稳定。同时,在部分可观测的环境中(即无人机只能看到前方有限区域),算法的避障能力有限,碰撞率居高不下,有时甚至达到30%-40%。这些问题严重制约了无人机在复杂未知环境下的实际应用。
为了攻克这些难题,来自西安电子科技大学和上海交通大学的研究团队在《IEEE Open Journal of Vehicular Technology》上发表了一项创新性研究。他们提出了一种名为“GTL-DCRP-ASAC”的优化框架,通过引入密集奖励机制、改进网络结构以及利用迁移学习策略,显著提升了无人机在未知环境中的路径规划性能。
为了开展这项研究,研究人员主要采用了以下几种关键技术方法:
  1. 1.
    系统建模与仿真环境:研究在AirSim高保真仿真环境中进行,该环境提供了逼真的物理引擎和视觉渲染。研究人员利用AirSim提供的多旋翼无人机模型,并为其配备了深度相机作为唯一的感知传感器,以模拟真实无人机在未知环境中的飞行状态。
  2. 2.
    深度碰撞风险预测(DCRP)算法:这是本研究的核心创新之一。该算法将深度相机获取的深度图像与无人机的姿态、速度信息相结合,通过一系列坐标变换和几何计算,实时评估无人机在飞行方向上的碰撞风险。该风险值被设计成一个连续的、密集的负奖励信号,融入到强化学习的奖励函数中,从而有效缓解了奖励稀疏问题,引导无人机主动避障。
  3. 3.
    改进的策略网络结构:研究人员在策略网络(Actor网络)中引入了一种新颖的跳跃连接(Skip Connection)机制。该机制将无人机关键的状态信息(如角速度)直接注入到最终的动作输出中,有效缓解了深度网络中的梯度消失问题,并加速了策略学习过程。
  4. 4.
    广义迁移学习(GTL)策略:为了加速在复杂环境中的训练,研究人员设计了一种迁移学习策略。该策略首先在障碍物相对简单的“Simple Avoid”环境中训练一个基础模型,然后将该模型的网络参数(除跳跃连接部分外)作为初始值,迁移到更复杂的“NH Center”环境中进行微调。这种方法避免了从零开始训练,大大提高了训练效率。
  5. 5.
    训练与评估指标:研究采用自适应熵系数的软演员-评论家(ASAC)算法作为基础训练框架。为了全面评估算法性能,研究人员定义了多个关键指标,包括任务成功率(TSR)、碰撞率(CR)、丢失率(LR)、平均任务执行时间(ATET)以及训练收敛步数(Converge Steps)等。
训练效果
研究人员在NH Center环境中对多种先进算法进行了训练效果对比。结果显示,本文提出的GTL-DCRP-ASAC(含跳跃连接)方法在训练过程中,其平均回合奖励和成功率均以更少的步数达到了更高的水平,表现出最高的训练效率。具体而言,与基线算法ASAC相比,该方法将收敛步数(Converge Steps)减少了55%,将达到40%成功率所需的步数(Steps@40%)减少了71%。与训练速度最快的I-TD3算法相比,这两个指标也分别减少了17%和62%。平均而言,该方法在训练效率上实现了约39%的整体提升。
为了验证跳跃连接和广义迁移学习(GTL)对训练效率的单独贡献,研究人员进行了消融实验。结果表明,仅使用跳跃连接,就能使收敛步数和Steps@40%分别减少约9%和15%,平均提升训练效率约12%。而仅使用GTL策略,则能使收敛步数和Steps@40%分别减少45%和27%,平均提升训练效率约36%。这充分证明了这两个技术对加速训练过程的有效性。
推理效果
在推理性能方面,研究人员首先测试了不同算法模型在PC上的平均推理时间(AIT)。结果显示,虽然本文提出的算法为了追求更好的避障性能,采用了规模更大的神经网络,导致其推理时间(约15ms)略高于原始的SAC算法,但仍远低于50ms的实时性要求,完全满足实际部署的需求。
随后,研究人员在三个不同的环境(Simple Avoid、NH Center、NH Tree)中对训练好的模型进行了大规模评估(每个环境300轮测试)。
  • Simple Avoid环境:在这个障碍物相对简单的环境中,大多数算法都表现良好。本文提出的DCRP-ASAC及其变体在任务成功率(TSR)、碰撞率(CR)和丢失率(LR)等指标上均优于其他算法,尤其是在避障性能上显著超越了SAC和TA-SAC算法。
  • NH Center环境:在这个更复杂的混合城市场景中,本文方法的优势更加明显。与ASAC算法相比,本文方法将任务成功率(TSR)提升了约20%,与SAC和TA-SAC等算法相比,提升幅度超过30%。在避障性能上也有显著改善。在平均任务执行时间(ATET)方面,虽然TA-SAC算法规划的路径耗时最短,但本文方法位列第二,且相比ASAC算法有所优化,这表明基于DCRP设计的奖励函数确实起到了优化路径、缩短任务时间的作用。
  • NH Tree环境:这是最具挑战性的森林环境,由于树木密集,所有算法的碰撞率都很高。然而,本文方法在这种最困难的环境下优势最为突出。与ASAC算法相比,任务成功率(TSR)提升了约20%,避障性能也显著优于其他算法。同时,在平均任务执行时间(ATET)上也优于SAC和ASAC算法。
本研究提出了一种基于密集奖励结构和强化学习的无人机实时路径规划方法。该方法通过引入深度碰撞风险预测(DCRP)算法来构建密集奖励函数,并结合自适应软演员-评论家(ASAC)算法,显著提升了无人机的避障能力和任务成功率。此外,通过在策略网络中引入跳跃连接机制,有效缓解了梯度消失问题,加速了策略学习;而广义迁移学习(GTL)策略则通过利用在简单环境中预训练的策略来初始化复杂环境中的模型,大幅提升了训练效率。
在高保真的AirSim仿真环境中进行的广泛实验验证了该方法的优越性。与现有先进算法相比,该方法在复杂场景下的任务成功率平均高出约20%,训练效率平均提升约39%,同时保持了约15ms的实时推理时间,完全满足实际部署的实时性要求。该框架展现了强大的泛化能力,为未来在动态障碍物、移动目标、物理飞行控制系统以及真实无人机平台上的应用奠定了坚实的基础。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号