基于三支决策与自注意力机制融合的无人机移动目标跟踪任务规划研究

《IEEE Open Journal of Vehicular Technology》:UAV's Task Planning for Tracking the Moving Target Based on TW-AM-SAC Transfer Fusion Algorithm

【字体: 时间:2025年12月24日 来源:IEEE Open Journal of Vehicular Technology 4.8

编辑推荐:

  本文针对不确定环境下无人机跟踪移动目标时存在的自主性有限、决策效率低和泛化能力差等问题,提出了一种融合三支决策和自注意力机制的TW-AM-SAC迁移融合算法。该研究通过引入非确定性策略SAC算法,结合三支决策理论设计自适应奖励函数,并利用自注意力机制动态分配奖励权重,同时构建自博弈迁移学习模型提升算法泛化能力。仿真结果表明,该方法相比单一SAC算法具有更高的跟踪频率、更快的收敛速度和更好的泛化性能,为无人机自主决策提供了有效解决方案。

  
在当今复杂多变的作战环境中,无人机(UAV)凭借其操作简便、成本低廉和适应性强等优势,已成为多任务场景中的重要工具。其中,无人机对移动目标的跟踪作为飞行任务的核心分支,受到了学者们的广泛关注。然而,现有的无人机移动目标跟踪任务规划方法主要面临三大挑战:传统基于模型的控制方法过度依赖特定环境假设和先验任务建模,导致自主性和实时性不足;而基于学习的方法尤其是深度强化学习,又存在奖励函数单一、收敛性能欠佳以及跨场景泛化能力有限等问题。这些局限性严重制约了无人机在复杂博弈目标跟踪任务中的实际应用效果。
针对这些挑战,发表在《IEEE Open Journal of Vehicular Technology》上的这项研究提出了一种创新的解决方案——基于三支决策(TW-AM-SAC)迁移融合算法的无人机跟踪决策系统。该研究通过将三支决策理论和自注意力机制融入优化的Soft Actor-Critic(SAC)框架,同时结合自博弈的迁移学习训练方法,显著提升了无人机在不确定环境下的自主决策能力和环境适应性。
研究人员为开展这项研究采用了几个关键技术方法:首先建立了包含无人机自身状态信息、目标感知信息和环境变化感知信息的综合状态空间模型,精确描述了无人机与移动目标的相对态势动力学;其次基于三支决策理论设计了跟踪态势奖励、规避态势奖励和态势转换奖励三个子模块,有效解决了传统奖励函数稀疏性问题;然后引入自注意力机制动态分配奖励函数权重,加速算法收敛;最后构建了结合自博弈的迁移学习模型,通过策略网络参数迁移和共享经验池的方式提升算法泛化能力。
无人机基本模型与跟踪机制
研究团队首先构建了无人机的运动模型,该模型忽略了外部环境因素对无人机运动的干扰,重点关注飞行决策的优化。模型通过位置向量Ru=(xu,yu,zu)、速度向量vu=(vxu,vyu,vzu)、俯仰角θu和偏航角φu等参数完整描述了无人机的运动状态。同时,无人机搭载9个前向传感器实时检测环境,获取障碍物信息和目标信息,为决策提供全面的环境感知支持。
目标跟踪与捕获模型
研究定义了无人机跟踪成功的条件:移动目标进入传感器检测区域并在规定时间内被锁定。通过相对位置向量d、相对距离d和相对方位角q三个关键参数来描述无人机与移动目标的相对态势动态。目标捕获模型需要同时满足距离约束(Dmin< />< />max)、角度约束(q< />max)和时间约束(tin>tmax),确保跟踪的有效性和安全性。
TWSAC算法设计与奖励函数优化
基于三支决策理论,研究团队构建了动态无人机博弈奖励优化系统,将奖励函数权重分为跟踪态势奖励权重aN、规避态势奖励权重aP和态势转换奖励权重aB,分别对应三支决策框架中的NEG、POS和BND域。通过贝叶斯决策方法计算期望成本,实现了根据不同威胁程度自动切换奖励策略的智能决策机制。
自注意力机制的动态权重调整
为解决传统SAC算法收敛速度慢的问题,研究引入了自注意力机制来构建奖励权重网络w。该机制通过将状态变量转换为Q、K、V三个矩阵,计算得到最终的权重值,实现了对奖励函数的动态权重分配。这种方法使无人机能够更好地感知"状态-动作-下一状态"三元组与其对应奖励之间的内部依赖关系,显著提高了学习效率。
迁移学习泛化系统
为提高算法在不同环境下的适应性,研究构建了基于迁移学习的无人机移动目标跟踪泛化模型。通过将基础任务的Q网络权重和策略网络权重作为目标任务的初始化参数,使无人机能够快速适应新的跟踪环境。特别值得一提的是,研究还提出了结合自博弈的迁移学习训练方法,通过红蓝双方共同优化同一策略网络、共享经验池的方式,进一步提升了算法的泛化能力和决策效率。
仿真实验结果与分析
在多环境训练仿真实验中,TW-AM-SAC算法表现出显著优势。在环境3的对比实验中,TW-SAC算法相比传统SAC算法收敛速度提升37.78%,最大奖励值提高34.94%。在典型态势下的对抗决策实验中,基于TW-AM-SAC算法的无人机能够在任何初始态势下持续调整自身姿态,最终占据有利位置并获得跟踪优势。
特别值得注意的是自博弈迁移学习实验的结果:在200个随机环境测试中,结合自博弈的迁移学习算法(R2模型)跟踪成功率达到43.79%,相比单一环境训练的模型(R模型)提升185.46%,相比从零开始自博弈训练的模型(R1模型)提升58.60%。这表明该方法显著增强了算法在未知环境中的适应能力。
研究结论与意义
本研究通过将三支决策理论和自注意力机制融入SAC算法框架,成功解决了深度强化学习在无人机跟踪任务中存在的奖励函数单一、收敛性能差和泛化能力不足等关键问题。TW-AM-SAC迁移融合算法不仅提高了跟踪效率和决策性能,还通过结合自博弈的迁移学习训练方法,显著增强了算法在复杂多变环境中的适应能力。
该研究的创新点主要体现在三个方面:首先,基于三支决策理论设计了多情境奖励函数,有效提升了决策系统的适应性;其次,引入自注意力机制实现奖励权重的动态分配,加速了算法收敛过程;最后,构建的自博弈迁移学习模型为解决深度强化学习在实际应用中的泛化问题提供了新思路。
这项研究成果为无人机在复杂现实环境中的自主决策任务提供了可靠的技术支持,对未来智能无人机系统的发展具有重要意义。研究团队表示,未来将重点关注实际无人机部署应用,加速智能无人机决策系统的实现进程,进一步满足复杂现实飞行环境的需求。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号