复杂动态环境下多无人机自主避障：一种融合LSTM注意力机制的事件触发近端策略优化方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年10月11日 来源：Neural Networks 6.3

编辑推荐：

　　本文提出的事件触发近端策略优化（ETPPO）算法，结合长短期记忆-注意力（LSTM-Attention）融合模块，通过动态模型成本函数与深度强化学习（DRL）奖励的复合设计，显著提升多无人机（UAV）在复杂环境中的避障性能与通信效率。

Basic Properties

考虑多无人机系统（MUSs）通信图G = {V, E, A}，其中V = {1,2,…,N}，E ? V×V表示边集。链路(i,j)∈E(t)表示无人机i可从无人机j接收信息。N_i代表节点邻居集，即N_i = {j | (i,j)∈E(t)}。图G的权重连接矩阵A = [a_ij] ∈ R^n×n，当且仅当(i,j)∈E(t)时，a_ij = 1。假设各无人机最大感知半径（即传感器扫描距离）为R_s，则邻居无人机j满足N_i(t) = {j | ∥x_i(t) - x_j(t)∥ < R_s}。

Event-based PPO Framework with LSTM-Attention Integration

本节通过部分可观测马尔可夫决策过程（POMDP）提供ETPPO方案，并在此框架内设计状态、动作和启发式奖励函数。最终通过集成ETPPO与LSTM-注意力网络提出ETPPO-LA算法。

Example and Experimental Results

为验证所设计ETPPO-LA算法的性能，在不同场景下进行消融与对比实验，同时基于预定义性能指标分析不同算法的实验结果。

Conclusions

针对复杂动态环境中多无人机避障问题，本文提出基于事件触发机制（ETM）、近端策略优化（PPO）及LSTM-注意力（LA）融合网络的ETPPO-LA避障算法。首先，基于理想环境下动力学模型成本函数与深度强化学习（DRL）避障奖励，设计了高质量复合奖励函数，增强了复杂环境中避障奖励函数设计的合理性。其次，为避免无价值信息传输，

热点排行

新闻专题

联系信箱：

粤ICP备09063491号