复杂动态环境下多无人机自主避障:一种融合LSTM注意力机制的事件触发近端策略优化方法

【字体: 时间:2025年10月11日 来源:Neural Networks 6.3

编辑推荐:

  本文提出的事件触发近端策略优化(ETPPO)算法,结合长短期记忆-注意力(LSTM-Attention)融合模块,通过动态模型成本函数与深度强化学习(DRL)奖励的复合设计,显著提升多无人机(UAV)在复杂环境中的避障性能与通信效率。

  
Basic Properties
考虑多无人机系统(MUSs)通信图G = {V, E, A},其中V = {1,2,…,N},E ? V×V表示边集。链路(i,j)∈E(t)表示无人机i可从无人机j接收信息。Ni代表节点邻居集,即Ni = {j | (i,j)∈E(t)}。图G的权重连接矩阵A = [aij] ∈ Rn×n,当且仅当(i,j)∈E(t)时,aij = 1。假设各无人机最大感知半径(即传感器扫描距离)为Rs,则邻居无人机j满足Ni(t) = {j | ∥xi(t) - xj(t)∥ < Rs}。
Event-based PPO Framework with LSTM-Attention Integration
本节通过部分可观测马尔可夫决策过程(POMDP)提供ETPPO方案,并在此框架内设计状态、动作和启发式奖励函数。最终通过集成ETPPO与LSTM-注意力网络提出ETPPO-LA算法。
Example and Experimental Results
为验证所设计ETPPO-LA算法的性能,在不同场景下进行消融与对比实验,同时基于预定义性能指标分析不同算法的实验结果。
Conclusions
针对复杂动态环境中多无人机避障问题,本文提出基于事件触发机制(ETM)、近端策略优化(PPO)及LSTM-注意力(LA)融合网络的ETPPO-LA避障算法。首先,基于理想环境下动力学模型成本函数与深度强化学习(DRL)避障奖励,设计了高质量复合奖励函数,增强了复杂环境中避障奖励函数设计的合理性。其次,为避免无价值信息传输,
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号