利用专家学习的战术规划拦截增强技术——双延迟深度确定性策略梯度

《IEEE Transactions on Intelligent Vehicles》:Tactical Planning Interception Enhancement using Expert Learning - Twin Delayed Deep Deterministic Policy Gradient

【字体: 时间:2025年11月24日 来源:IEEE Transactions on Intelligent Vehicles 14.3

编辑推荐:

  精准拦截对抗无人机是保障人员和国家安全设施的关键。城市环境因建筑物密集和飞行限制给拦截算法带来挑战,传统深度强化学习(DRL)在跨场景泛化上存在局限。本文提出基于双延迟确定性策略梯度(TD3)的专家在线混合学习算法,通过动态融合专家历史策略与在线探索数据,有效优化奖励函数与动作分布,提升算法在多样化城市场景中的鲁棒性和收敛速度。对比实验表明该方法优于传统DRL基线算法。

  

摘要:

准确拦截敌对无人驾驶飞行器(UAV)对于保护人民和国家设施至关重要。由于建筑物和飞行限制的存在,城市环境给目标拦截算法带来了诸多挑战,这些因素限制了UAV在拦截目标时的机动性。深度强化学习(DRL)算法已被用于有效解决这一问题。然而,其内部元素(如奖励函数和动作分布)的设计限制了该算法在不同环境中的泛化能力。为了解决这一问题,本文提出了一种基于双重延迟深度确定性策略梯度(TD3)的新型专家学习算法,该算法结合了以往的专家经验与在线学习,以规范和优化策略学习过程。具体实现方式是通过一种动作分布算法,使学习代理能够将自己生成的动作与专家生成的动作相结合,从而实现学习效果的提升和快速收敛。在多种城市环境配置下进行的广泛仿真研究表明,与传统的DRL基线算法相比,所提出的方法具有更高的鲁棒性和准确性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号