利用专家学习的战术规划拦截增强技术——双延迟深度确定性策略梯度

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Intelligent Vehicles》：Tactical Planning Interception Enhancement using Expert Learning - Twin Delayed Deep Deterministic Policy Gradient

【字体：大中小】 时间：2025年11月24日 来源：IEEE Transactions on Intelligent Vehicles 14.3

编辑推荐：

　　精准拦截对抗无人机是保障人员和国家安全设施的关键。城市环境因建筑物密集和飞行限制给拦截算法带来挑战，传统深度强化学习（DRL）在跨场景泛化上存在局限。本文提出基于双延迟确定性策略梯度（TD3）的专家在线混合学习算法，通过动态融合专家历史策略与在线探索数据，有效优化奖励函数与动作分布，提升算法在多样化城市场景中的鲁棒性和收敛速度。对比实验表明该方法优于传统DRL基线算法。

摘要：

准确拦截敌对无人驾驶飞行器（UAV）对于保护人民和国家设施至关重要。由于建筑物和飞行限制的存在，城市环境给目标拦截算法带来了诸多挑战，这些因素限制了UAV在拦截目标时的机动性。深度强化学习（DRL）算法已被用于有效解决这一问题。然而，其内部元素（如奖励函数和动作分布）的设计限制了该算法在不同环境中的泛化能力。为了解决这一问题，本文提出了一种基于双重延迟深度确定性策略梯度（TD3）的新型专家学习算法，该算法结合了以往的专家经验与在线学习，以规范和优化策略学习过程。具体实现方式是通过一种动作分布算法，使学习代理能够将自己生成的动作与专家生成的动作相结合，从而实现学习效果的提升和快速收敛。在多种城市环境配置下进行的广泛仿真研究表明，与传统的DRL基线算法相比，所提出的方法具有更高的鲁棒性和准确性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号