一种用于追逐-锁定-发射任务的模仿强化学习框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Autonomous and Adaptive Systems》：An Imitative Reinforcement Learning Framework for Pursuit-Lock-Launch Missions

【字体：大中小】 时间：2025年11月08日 来源：ACM Transactions on Autonomous and Adaptive Systems

编辑推荐：

　　UCAV视距内对抗采用模仿强化学习框架提升学习效率与环境适应性，在哈法龙3D环境中实现100%成功率的自主对抗策略。

摘要

无人作战飞机（UCAV）在视距内（WVR）的交战，即两架或多架UCAV在近距离内的战斗，在空中战场上起着决定性作用。随着人工智能的发展，WVR交战逐渐向智能化和自主化模式迈进。然而，自主WVR交战策略的学习受到诸多挑战的阻碍，如探索能力较弱、学习效率低下以及模拟环境不现实等。为克服这些挑战，我们提出了一种新颖的模仿强化学习框架，该框架能够高效利用专家数据的同时实现自主探索。该框架不仅通过模仿专家提高了学习效率，还通过强化学习实现了对动态环境的适应能力。因此，该框架能够学习出适用于UCAV的“追踪-锁定-发射”成功策略。为了支持数据驱动的学习，我们基于Harfang3D沙盒建立了一个实验环境。广泛的实验结果表明，该框架在这一多阶段任务中表现出色，显著优于现有的强化学习和模仿学习方法。得益于模仿专家的能力和自主探索功能，我们的框架能够快速掌握复杂空中战斗任务中的关键知识，成功率高达

100 %

，并且展现出出色的鲁棒性。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号