
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于两阶段课程强化学习的通信辅助多无人机碰撞检测与避障方法研究
【字体: 大 中 小 】 时间:2025年07月27日 来源:Biomimetic Intelligence and Robotics CS3.7
编辑推荐:
为解决多无人机在复杂动态环境中避障的难题,研究人员提出了一种基于两阶段课程强化学习(CRL)的通信辅助碰撞检测与避障方法(CACDA-CRL)。该方法通过融合感知与通信数据,采用分阶段训练策略,显著提升了避障可靠性和训练效率。实验表明,该方法在PX4软件在环(SITL)仿真和真实飞行中均优于现有方法,并实现了从仿真到现实的零样本迁移。
随着无人机集群技术的快速发展,多无人机系统在物流配送、灾害救援等领域展现出巨大潜力。然而,在复杂动态环境中实现安全高效的避障仍面临严峻挑战。传统方法如速度障碍法(VO)和最优互惠避障(ORCA)存在适应性差、计算成本高等问题,而基于深度学习(DL)的方法又面临训练效率低、感知盲区等局限。
针对这些问题,来自中国的研究团队在《Biomimetic Intelligence and Robotics》发表了一项创新研究。他们提出了一种通信辅助的碰撞检测与避障方法(CACDA),通过两阶段课程强化学习(CRL)框架,将感知数据与通信信息深度融合。第一阶段在无障碍环境中训练部分网络实现无人机间避障,第二阶段在复杂环境中扩展全网络完成综合避障。这种方法有效解决了感知与通信数据维度差异导致的策略学习难题。
研究团队运用了三个关键技术:1) 基于部分可观测马尔可夫决策过程(POMDP)建模无人机决策问题;2) 设计包含激光雷达(LiDAR)测量、邻居位置和速度信息的复合观测空间;3) 采用近端策略优化(PPO)算法进行集中训练分散执行(CTDE)。
研究结果显示:在结构化环境测试中,CACDA-CRL实现了零碰撞,平均任务时间较NH-ORCA缩短11.5%,运动平滑性指标jerk降低44.3%。在多样化场景中,该方法展现出卓越的泛化能力,碰撞次数比非通信基线(PPO-NC)减少81%。真实飞行实验验证了其零样本迁移能力,四机系统在20×20m2区域内成功避障。
这项研究的创新性体现在:1) 首次将课程学习引入多无人机避障领域,提出"由简入繁"的两阶段训练范式;2) 通过通信补偿感知盲区,使无人机能预判视野外的潜在碰撞;3) 在保持端到端方法优势的同时,显著提升了策略的可靠性和训练效率。该成果为复杂环境下的自主无人机集群应用提供了重要技术支撑,其方法框架也可拓展至其他多智能体协作场景。未来研究可进一步探索三维避障和户外GNSS定位等方向,持续推动该技术的实际应用。
生物通微信公众号
知名企业招聘