综述:学习探索:受限环境中基于学习的单MAV探索的系统综述

《ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING》:Learning to Explore: A Systematic Review of Learning-Based Single MAV Exploration in Confined Environments

【字体: 时间:2025年12月21日 来源:ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING 2.9

编辑推荐:

  本综述系统回顾了基于学习(特别是深度强化学习(DRL))的微型飞行器(MAV)在GPS(Global Positioning System)和通信拒止的受限环境(如地下洞穴、工业隧道)中的自主探索策略。文章分析了DRL算法(如近端策略优化(PPO)、深度Q网络(DQN))的趋势、训练范式、仿真环境及奖励设计,指出了混合方法、现实世界验证和基准开发等未来方向,为推进MAV在未知环境中的安全、可扩展部署奠定了基础。

  
在过去十年中,随着传感技术、机载计算能力和先进控制算法的发展,微型飞行器(MAV)的应用显著增长。它们最初用于航空成像和监视,现在已广泛应用于灾难响应、基础设施检查、环境监测和探索等自主任务。探索任务通常涉及在未知环境中自主导航、绘制周围地图、识别感兴趣区域,并在危险或受限环境(如灾难区、矿井、洞穴和倒塌建筑物)中支持作业。
在受限环境中部署MAV通常面临机动性有限、能见度低、特征缺失 surroundings 和复杂几何形状等约束。这些环境的例子包括地下洞穴、工业隧道、茂密森林和室内结构。图1展示了更多受限环境的例子。在此类领域中的探索带来了独特的挑战,包括受限运动、动态障碍物、用于定位的稀疏特征以及不可靠或不可用的通信链路。MAV由于其体积小、敏捷性强且能够导航地面机器人和人类难以进入的狭窄或受阻空间,非常适合受限环境。它们的空中机动性允许在危险或GPS拒止设置中快速部署,而机载传感器(如激光雷达(LiDAR)和摄像头)能够在不影响人类安全的情况下进行有效的测绘、检查和监控。
受限环境中的自主MAV探索需要先进的决策框架,这些框架超越了传统的导航、控制和规划方法。需要实时决策、自适应路径规划和鲁棒的避障,同时处理有限的计算和电源资源,以及GPS和通信信号的缺失。基于学习的探索通过使智能体(agent)能够通过与环境的交互来学习最优策略,从而有效探索,为解决这些约束提供了一条有前途的途径。
近年来,机器人探索在文献中日益受到关注。图表显示,直到2020年左右,出版物数量缓慢而稳定地增长,随后急剧上升,在2024年达到顶峰。这一趋势反映了该领域日益增长的兴趣,可能由机器学习、机载传感和自主控制算法的进步所驱动。这一激增也可能归因于2018年启动并于2021年结束的DARPA地下挑战赛,该赛事极大地引起了人们对探索问题的关注。
基于学习的方法在自主机器人探索中的应用显著激增。基于学习的方法,包括监督学习、无监督学习、模仿学习和强化学习(RL),使MAV能够从过去的经验中学习,适应不确定性,并处理高维感官输入。其中,深度强化学习(DRL)因其在处理不确定性下的顺序决策方面的有效性而受到极大关注。DRL结合了深度学习和传统RL的优势,使智能体能够直接从与环境的交互中学习控制策略。图2显示了自2018年以来机器人领域专注于DRL的出版物的急剧增长,基于本次调查收集的文献,突显了日益增长的研究兴趣以及DRL在现实世界机器人探索中的成功。
在MAV探索的背景下,DRL方法在处理探索与安全之间的权衡、在未知和部分可观测环境中学习高效导航策略方面显示出潜力。当应用于受限环境时,DRL提供了学习自适应行为的潜力,这些行为可以跨不同领域和约束级别进行泛化。从出版物数量的急剧增长可以看出,对该主题的研究关注度增加,突显了社区在挑战性领域推进自主探索能力的承诺。尽管有这种势头,但一项全面调查基于学习的MAV在受限环境中探索现状的综述,特别是专注于DRL的综述,仍然缺乏。本文通过提供关于MAV探索的基于学习的方法(特别是DRL应用)的系统文献综述来弥补这一空白。旨在强调关键方法及其表述,识别趋势,分析基准环境和评估指标,并指出任何开放的研究挑战。遵循系统综述和荟萃分析(PRISMA)的首选报告项目方法,提供关于文献搜索、筛选和选择过程的透明、可重复的说明,为这个不断发展的领域的未来研究奠定坚实基础。
当前MAV在受限环境中探索的现状
自主MAV探索指的是空中机器人自行在未知环境中导航和绘图的能力。这种能力对于现实世界任务至关重要,例如工业现场检查、建筑测绘或危险区域的搜索和救援,利用MAV的敏捷性和到达人类或地面机器人无法进入的地方的能力。在受限环境中使用基于学习的方法进行MAV探索面临着硬件和算法上的双重挑战。在硬件方面,MAV受到有限的电池寿命、处理能力和有效载荷能力的限制,这限制了传感器质量和运行时间。它们经常在黑暗或杂乱区域在没有GPS的情况下运行,迫使依赖仅提供环境噪声、部分观测的机载传感器。这些现实世界的限制要求极其鲁棒和高效的算法。此外,MAV的策略必须处理部分可观测性,这是由角落周围的遮挡、有限的视野(FOV)引起的,并且必须适应新的条件。照明、纹理或布局的变化否则会降低学习模型的性能。确保在狭窄通道中的避障至关重要,因此最近的方法强调在尊重MAV飞行约束和传感器限制的同时,将学习到的策略从仿真泛化到现实。
DRL用于受限环境中的探索
在本综述中,主要焦点是用于MAV探索的DRL算法。DRL结合了强化学习(智能体从奖励反馈中学习)和深度神经网络作为函数逼近器,允许智能体处理高维感官输入和复杂状态空间。在此上下文中,DRL训练的策略充当基于学习的规划器或控制器:它不是依赖手动编程的规则,而是将传感器观测(例如激光雷达扫描、相机图像或局部地图)直接映射到导航动作(如转向命令或航点),以最大化长期奖励。
图3展示了在模拟或现实世界受限环境中使用MAV进行基于DRL的自主探索的概念框架。来自机载传感器(例如相机、激光雷达、IMU)的观测被处理成状态,然后通过策略网络映射到导航动作。环境(无论是模拟还是现实世界)提供指导训练的奖励,使得在模拟中学习的策略能够通过模拟到现实(sim-to-real)学习转移到现实世界任务中。
DRL算法通常可分为基于价值的方法、基于策略的方法或行动者-评论家(actor-critic)方法。基于价值的方法,如深度Q网络(DQN),专注于学习一个价值函数,该函数估计每个状态或状态-动作对的预期未来奖励。在这种情况下,策略是间接导出的,智能体选择具有最高预测值的动作。另一方面,基于策略的方法通过调整策略的参数以最大化预期回报来直接学习策略,而不依赖于单独的价值函数。基于策略的技术自然处理连续或随机动作空间;然而,它们通常在其梯度估计中具有高方差,这可能使训练不稳定。
行动者-评论家方法作为一种混合方法,结合了基于价值和基于策略技术的优势。行动者-评论家算法维护两个协作模型:一个代表策略并决定在每个状态下采取何种动作的行动者,以及一个通过估计预期奖励的价值来评估所选动作的评论家。然后,评论家的反馈(例如,时间差分误差)被用来更新行动者的策略,有效地使用价值估计作为基线来减少与纯策略梯度方法相关的高方差并稳定学习。通过同时学习价值函数和策略,行动者-评论家算法可以实现比纯价值或纯策略方法更稳定和样本高效的训练。事实上,这个框架支撑了许多先进的DRL算法,例如,异步优势行动者-评论家(A3C)、深度确定性策略梯度(DDPG)和软行动者-评论家(SAC)都是利用行动者-评论家架构来平衡价值估计和直接策略优化的好处的行动者-评论家方法。
几种现代DRL算法,如近端策略优化(PPO)、DDPG和SAC,已被应用于探索领域,每种算法都有不同的特点和结果。PPO是一种已知其稳定性和易用性的同策略(on-policy)行动者-评论家方法。PPO通过剪裁目标来约束策略更新,在学习效率和策略稳定性之间取得了良好的平衡。这使得PPO非常适合于实时任务,并导致其在机器人路径规划和避障任务中的广泛使用。PPO已被证明在动态导航场景中实现高成功率,同时保持比经典规划器更短的路径长度。
DQN是一种基于价值的DRL算法,它使用深度神经网络来近似Q值函数,使智能体能够在具有离散动作空间的任务中从高维输入(如图像或激光雷达扫描)学习导航策略。在DQN中,智能体学习每个状态-动作对的预期累积奖励(Q值),并选择使该值最大化的动作。DQN中使用经验回放和目标Q网络等技术来稳定训练。DQN已应用于动作空间可以离散化的MAV导航,例如,从一组固定的航点方向中选择。当不需要连续动作时,它在避障和探索方面已被证明是有效的。然而,标准DQN容易产生高估偏差,并且在复杂环境中可能表现出不稳定的学习。两个主要的扩展解决了这些问题:双DQN(DDQN)和竞争DQN(Dueling DQN)。
双DQN(DDQN)通过将动作选择与评估解耦来减少高估,它使用一个网络选择最佳动作,并使用一个单独的目标网络来评估该动作的价值。竞争DQN引入了一种具有两个流的网络架构:一个估计状态价值(一个状态总体上有多少价值),另一个估计每个动作的优势(该动作相对于状态基线价值的额外价值)。这种竞争架构帮助智能体学习哪些状态本身是有价值的,而无需学习每个状态下每个动作的效果。通过分离状态价值和优势,竞争网络可以更准确地评估Q值,特别是在动作选择不会 drastically 改变结果的状态下。竞争双DQN(DDDQN),有时称为D3QN,结合了这两种改进:它在双DQN算法中应用了竞争架构。这种组合已被证明可以超越原始DQN,增强学习稳定性和性能。在室内无人机探索研究中,例如,与基本DQN相比,DDDQN智能体实现了改进的避障和更大的区域覆盖。然而,所有基于DQN的方法的一个限制是它们仅限于离散动作输出。对于本质上需要连续控制(油门、角速率等)的MAV飞行,基于价值的方法如DQN/DDDQN不如行动者-评论家方法方便;离散化动作空间可能导致次优控制或细粒度离散化中的高计算复杂性。因此,虽然DQN及其变体适用于高级决策或基于网格的路径规划,但对于受限飞行环境中所需的低级控制,它们通常被DDPG和SAC等连续控制算法所超越。
DDPG是一种离策略(off-policy)行动者-评论家算法,学习连续动作空间的确定性策略。它通过训练一个行动者网络输出连续动作和一个评论家网络估计状态-动作对的Q值,将DQN的Q值学习思想扩展到连续控制。通过经验回放和目标网络,DDPG可以通过结合价值函数学习和策略学习,在MAV飞行动力学等高维连续领域学习精确的控制策略。其处理连续输出(如速度或推力命令)的能力使其自然适合MAV控制。然而,原始的DDPG可能遭受稳定性问题,例如Q值的高估偏差和对超参数的敏感性,通常导致训练不稳定或次优策略。
双延迟DDPG(TD3)是DDPG的一种改进变体,旨在解决高估偏差和超参数敏感性问题。TD3引入了双评论家架构和延迟策略更新。通过学习两个Q值评论家网络并在策略更新中使用它们预测的最小值,TD3避免了高估Q值,因此通过其双评论家设计对高估偏差更具抵抗力。它也比评论家更不频繁地更新行动者,并向目标动作添加噪声,进一步提高了学习稳定性。这些修改使TD3比DDPG显著更稳定和可靠,并且TD3已成为机器人连续控制任务的鲁棒解决方案。在MAV探索的背景下,DDPG(通常带有TD3增强)擅长学习平滑和精确的控制策略。
SAC是一种较新的离策略算法,它最大化一个增加了熵项的奖励。SAC通过将策略推向更高的熵来鼓励探索,这提高了鲁棒性并避免智能体陷入局部最优。它还采用双Q网络来减少价值估计中的高估偏差。这些创新使SAC在复杂的部分可观测任务中非常有效。
其他DRL算法,如A3C和优势行动者-评论家(A2C),也已被探索用于导航任务。然而,PPO、DDPG、DQN和SAC由于在连续控制方面的强大性能,仍然是通用机器人导航和探索中使用最广泛的。总之,DRL充当一种自适应规划器,从数据中学习最优探索策略,克服了经典方法的局限性。本综述考察了这些算法、它们的奖励设计和训练设置如何被利用来实现MAV自主,突出了它们的实际成功和现实世界部署中仍然存在的挑战。
基于学习的探索:挑战
虽然基于学习的探索为自主探索提供了重要的前景,但它面临关键挑战。首先,探索本质上是一个部分可观测的问题,意味着MAV传感器仅揭示有限的视图,需要在关于未见区域的不确定性下做出决策,这被形式化为部分可观测马尔可夫决策过程(POMDP)。智能体必须处理意外的发现,例如发现一个假设不存在的走廊连接。许多DRL方法通过结合记忆(例如通过循环网络或注意力机制来处理观测历史)来解决部分可观测性。其次,仿真到现实(sim-to-real)转移,指的是在模拟环境中训练机器人或MAV然后将学习到的策略成功应用于现实世界环境的过程,仍然很困难。在模拟中训练的策略经常由于传感器噪声、动力学和视觉条件方面的差异而在真实环境中失败。像领域随机化、高保真模拟器和真实数据微调这样的技术被用来提高可转移性,尽管实现鲁棒的部署仍然是一个主要障碍。最后,动态和高维环境增加了复杂性,因为MAV必须适应变化的布局、移动的障碍物和受限环境,同时集成多个传感器模态,如激光雷达、摄像头、惯性测量单元(IMU)。设计智能体策略来处理这种动态并执行实时传感器融合仍然是一个开放的研究挑战。本综述考察了现有的DRL框架如何解决MAV探索中的这些复杂性。
方法、结果与讨论
本综述遵循PRISMA方法论,通过数据库(IEEE Xplore、ScienceDirect、Web of Science)系统搜索,从4335项研究中筛选出25项符合纳入标准的研究进行分析。结果显示,基于学习(特别是DRL)的MAV探索研究自2020年以来显著增长,2023-2024年达到高峰。应用领域主要集中在室内或网格环境的探索和导航,少数研究涉及地下和室外城市域。平台分析显示,无人机(UAV)研究居多,明确针对MAV的研究较少,突显了MAV特定约束(如有限负载、计算资源)研究方面的差距。
在DRL算法中,行动者-评论家方法,特别是PPO及其变体(如TCPPO, CCPPO)占主导地位,因其策略更新的稳定性。DQN及其变体(如DDQN, D3QN)也常用于离散动作空间,而SAC、DDPG/TD3等更适用于连续控制的算法代表不足但前景广阔。奖励设计多集中于目标到达、避障、信息增益和探索覆盖率,但多为手工设计,存在领域偏差和可扩展性限制。动作空间以离散动作为主(92%),简化了学习但牺牲了操控精度;仅一项研究采用连续动作空间。观测空间从占据栅格到原始图像和点云不等,少数研究采用4D点云等高级表示。
学习架构可分为模块化学习和端到端学习。模块化方法将自主栈分解为离散子系统(如定位与建图(SLAM)、规划、控制),便于调试和集成,是当前主流。端到端学习训练单一统一策略直接从传感器输入映射到控制命令,有实现完全集成自主的潜力,但面临训练复杂、泛化性和安全性挑战,在实际部署中较少见。训练环境以仿真为主(>80%),常用平台包括Gazebo、ROS、AirSim和Unreal Engine。仿真到现实转移策略开始受到关注,但纯现实世界训练罕见。传感器使用方面,摄像头(单目、立体、RGB-D)是主导感知模态,激光雷达(2D, 3D)次之,IMU用于状态估计,其他传感器(深度、接近、高度计等)反映特定任务需求。多模态感知和传感器融合技术探索不足。
未来研究方向与结论
未来研究应关注:开发更鲁棒的仿真到现实转移技术以弥合现实差距;改进算法样本效率、策略泛化和安全探索,探索结合DRL与经典规划的混合框架;研究用于长时程规划、记忆和上下文感知的先进模型架构(如基于Transformer的模型);以及推进互补传感器(激光雷达、视觉、IMU)的基于学习的融合,以增强在挑战性条件下的感知和定位。
总之,基于学习的方法,特别是DRL,在推动MAV于受限环境中实现智能、自适应探索方面展现出巨大潜力。尽管在仿真和特定任务中取得了显著进展,但真正的现实世界部署仍面临可靠性、安全性和效率的挑战。通过解决仿真到现实转移、算法创新、多模态感知融合等关键问题,未来有望实现MAV在复杂、动态且安全关键的未知环境中真正自主、可靠地运行。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号