复杂动态环境下多无人机自主避障:一种融合LSTM注意力机制的事件触发近端策略优化方法
【字体:
大
中
小
】
时间:2025年10月11日
来源:Neural Networks 6.3
编辑推荐:
本文提出的事件触发近端策略优化(ETPPO)算法,结合长短期记忆-注意力(LSTM-Attention)融合模块,通过动态模型成本函数与深度强化学习(DRL)奖励的复合设计,显著提升多无人机(UAV)在复杂环境中的避障性能与通信效率。
考虑多无人机系统(MUSs)通信图G = {V, E, A},其中V = {1,2,…,N},E ? V×V表示边集。链路(i,j)∈E(t)表示无人机i可从无人机j接收信息。Ni代表节点邻居集,即Ni = {j | (i,j)∈E(t)}。图G的权重连接矩阵A = [aij] ∈ Rn×n,当且仅当(i,j)∈E(t)时,aij = 1。假设各无人机最大感知半径(即传感器扫描距离)为Rs,则邻居无人机j满足Ni(t) = {j | ∥xi(t) - xj(t)∥ < Rs}。
Event-based PPO Framework with LSTM-Attention Integration
本节通过部分可观测马尔可夫决策过程(POMDP)提供ETPPO方案,并在此框架内设计状态、动作和启发式奖励函数。最终通过集成ETPPO与LSTM-注意力网络提出ETPPO-LA算法。
Example and Experimental Results
为验证所设计ETPPO-LA算法的性能,在不同场景下进行消融与对比实验,同时基于预定义性能指标分析不同算法的实验结果。
针对复杂动态环境中多无人机避障问题,本文提出基于事件触发机制(ETM)、近端策略优化(PPO)及LSTM-注意力(LA)融合网络的ETPPO-LA避障算法。首先,基于理想环境下动力学模型成本函数与深度强化学习(DRL)避障奖励,设计了高质量复合奖励函数,增强了复杂环境中避障奖励函数设计的合理性。其次,为避免无价值信息传输,
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号