一种用于追逐-锁定-发射任务的模仿强化学习框架

《ACM Transactions on Autonomous and Adaptive Systems》:An Imitative Reinforcement Learning Framework for Pursuit-Lock-Launch Missions

【字体: 时间:2025年11月08日 来源:ACM Transactions on Autonomous and Adaptive Systems

编辑推荐:

  UCAV视距内对抗采用模仿强化学习框架提升学习效率与环境适应性,在哈法龙3D环境中实现100%成功率的自主对抗策略。

  

摘要

无人作战飞机(UCAV)在视距内(WVR)的交战,即两架或多架UCAV在近距离内的战斗,在空中战场上起着决定性作用。随着人工智能的发展,WVR交战逐渐向智能化和自主化模式迈进。然而,自主WVR交战策略的学习受到诸多挑战的阻碍,如探索能力较弱、学习效率低下以及模拟环境不现实等。为克服这些挑战,我们提出了一种新颖的模仿强化学习框架,该框架能够高效利用专家数据的同时实现自主探索。该框架不仅通过模仿专家提高了学习效率,还通过强化学习实现了对动态环境的适应能力。因此,该框架能够学习出适用于UCAV的“追踪-锁定-发射”成功策略。为了支持数据驱动的学习,我们基于Harfang3D沙盒建立了一个实验环境。广泛的实验结果表明,该框架在这一多阶段任务中表现出色,显著优于现有的强化学习和模仿学习方法。得益于模仿专家的能力和自主探索功能,我们的框架能够快速掌握复杂空中战斗任务中的关键知识,成功率高达100%,并且展现出出色的鲁棒性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号