《Neurocomputing》:Mobile robot path planning based on the attention mechanism and dual-stage sampling DDQN algorithm
编辑推荐:
加权注意力机制|双阶段采样|人工势场奖励优化|复杂障碍场景路径规划|DDQN算法改进
张丽萍|冷中涛|尹亚萌|卢秋丽|王一林
中国桂林航空航天科技大学特种工程装备与控制广西重点实验室
摘要
为了解决传统双深度Q网络(DDQN)算法在移动机器人路径规划中存在的特征利用率低、样本学习效率不足以及容易陷入局部最优的问题,本文提出了一种改进的DDQN算法。该算法整合了加权注意力机制、累积奖励双阶段采样和人工势场(APF)奖励。首先,在状态输入层之后嵌入了一个加权注意力模块,以动态调整特征权重,增强对关键环境信息(如障碍物距离和目标方向)的表示能力,从而优化网络的决策聚焦能力。其次,提出了一种基于累积奖励和时差(TD)误差的双阶段采样机制。首先根据累积奖励从经验池中筛选样本,构建高潜在价值的样本序列;然后基于TD误差对筛选后的样本进行二次采样,有效平衡了经验回放的效率和收敛稳定性。最后,引入了一个结合APF势场梯度的奖励函数。吸引场引导机器人朝向目标移动,排斥场帮助机器人避开障碍物,共同引导机器人避开局部最优解并生成平滑路径。实验表明,在复杂障碍场景下,与传统的DDQN相比,改进算法的路径规划成功率提高了30%,平均路径长度减少了18.5%,平均时间减少了17.4%。仿真和实物测试均验证了该算法在多障碍物和“L”形障碍场景下的鲁棒性和泛化能力。
引言
随着智能制造和仓库物流的快速发展,移动机器人在动态复杂环境中的自主导航需求日益迫切[1]。路径规划作为机器人导航的核心组成部分,必须基于实时环境感知,在路径最优性、避障安全性和计算效率等多个目标之间取得平衡[2]。传统的规划算法(如A* [3]和Dijkstra [4])虽然在结构化环境中表现稳定,但由于计算复杂度高且适应动态变化的能力较弱,难以满足复杂场景的需求[5]。人工势场(APF)[6]方法虽然可以通过势场梯度引导局部避障,但容易陷入局部最优解,并且依赖于精确的环境建模。近年来,深度强化学习(DRL)[7]算法通过端到端的环境交互学习策略,为高维连续状态空间中的路径规划提供了新的方法。
基于价值函数的DRL算法,如深度Q网络(DQN)[8] [9]和双深度Q网络(DDQN)[10],主要依靠价值函数来评估在给定状态下采取特定行为的优劣,从而指导智能体的学习过程。DQN算法将深度神经网络应用于Q学习,利用神经网络近似Q值,解决了大状态空间的局限性[11]。张Y等人[12]提出了一种基于DQN和DWA融合的移动机器人路径规划算法。该算法结合了A*算法的全局路径规划能力、DWA的局部避障能力和DQN的深度强化学习特性,提升了机器人在复杂动态环境中的路径规划性能。尽管该算法在仿真实验中表现优异,但其应用目前仅限于单个机器人,尚未在多机器人场景中进行实验验证。其在复杂且不断变化的真实世界环境中的适应性和稳定性仍需进一步评估。陈C等人[13]提出了一种用于室内移动机器人局部路径规划和避障的改进DDQN算法。该算法通过引入双DDQN结构、优先经验回放机制和Munchausen强化学习策略,显著提高了学习效率、稳定性和路径规划性能。然而,在复杂场景中的成功率仍低于50%,存在碰撞风险,且DRL算法在高维空间中的收敛性仍是一个挑战。DDQN算法通过解耦动作选择和价值评估,减轻了Q值的过度估计问题,广泛应用于动作空间离散化的控制任务。周Y等人[14]提出了一种基于深度强化学习的室内盲点引导自主机器人路径规划方法。通过引入阻挡和盲点机制优化DDQN,并结合优先经验回放,有效解决了机器人在复杂室内环境中的盲点探索问题,显著提高了路径规划覆盖率和收敛速度。然而,该方法仅限于静态环境下的仿真,尚未在真实动态场景中进行验证。韩H等人[15]将双分支网络结构、专家经验模块和优化奖励函数引入DDQN算法,有效解决了高维数据处理、模型收敛慢和奖励稀疏等问题,显著提高了训练效率和路径规划的稳定性。尽管该方法在仿真和真实环境中表现优异,但其对动态环境的适应性和实时性能仍需进一步改进。敖Q等人[16]将地图信息与DDQN算法结合,提出了一种用于半导体制造自动化物料搬运系统中 overhead hoist transport(OHT)路径规划的基于DDQN的动态路径规划方法。该方法有效解决了OHT在复杂道路条件下的路径规划问题,提高了路径规划效率和抗阻塞能力。然而,该方法对动态环境的适应性尚未在真实场景中得到充分验证。此外,当地图大小变化时,训练好的模型无法直接使用,需要调整网络结构并重新训练,这限制了模型在实际应用中的灵活性和可扩展性。对于在海洋流干扰下的自主水下机器人路径规划,胡S等人[17]提出了一种基于噪声网络和优先经验回放的DDQN算法。通过使用改进的奖励函数和云桌面技术,该方法提高了路径规划效率和安全性,其在真实海洋环境中的优越性能得到了验证。尽管该模型在路径规划效率和安全性方面表现优异,但其训练速度仍有提升空间。陈X等人[18]结合了A*算法的全局路径规划能力和DDQN算法的自适应学习机制,提出了一种智能船舶路径规划方法。实验表明,该方法生成的路径更短、更平滑,显著提高了导航效率和安全性。然而,在处理高维状态空间时,该方法可能面临计算复杂度高的问题,尤其是在动态海洋环境中。实时环境变化对船舶导航策略的影响需要进一步研究。唐C等人[19]提出了一种改进的DDQN算法,通过结合动态加权的高质量经验和来自DDQN及平均DDQN的先验知识,有效解决了传统DDQN在奖励稀疏和估计值过高方面的问题,显著提高了路径规划效率和收敛速度。该算法的训练过程依赖于数字高程模型数据,其处理实时数据的能力有限,其在大规模复杂地形中的泛化能力仍需改进。
总之,尽管传统DDQN算法在路径规划任务中取得了良好成果,但在特征利用、样本效率和奖励机制设计方面仍存在显著瓶颈。为了解决这些问题,本文提出了一种改进的DDQN算法,整合了加权注意力机制、累积回报-时差(TD)误差双阶段采样和APF奖励协同优化。主要贡献如下:
- (1)
环境感知的加权注意力模块:在状态输入层之后嵌入了一个轻量级的注意力网络,通过可学习的权重动态分配对障碍物距离和目标方向等特征的关注,从而增强网络表示关键状态的能力。
- (2)
累积回报驱动的双阶段采样机制:设计了一种双阶段采样策略,包括基于累积回报的初始筛选和使用TD误差的精细筛选。该方法首次将长期回报潜力纳入样本选择标准,优先考虑高价值轨迹段。然后使用TD误差来调整关键样本的权重,解决了传统经验池采样中的短视性和多样性不平衡问题。
- (3)
APF-奖励耦合梯度引导方法:通过整合势场梯度信息构建了一个密集的奖励函数,将目标在引力场中的吸引效应和动态障碍物避障约束编码到奖励信号中。这有效抑制了局部最优解,生成了平滑、安全的路径。
为了验证算法的有效性,本文在Gazebo仿真平台构建了包含简单和复杂障碍物的场景,并搭建了真实的移动机器人实验平台进行对比测试。实验结果表明,与标准DDQN算法相比,改进算法在路径成功率、收敛速度和规划时间方面取得了显著提升。此外,真实环境测试进一步验证了算法在复杂场景中的泛化能力和实用性。
本文的其余结构如下:第2节介绍DDQN算法以及移动机器人的状态空间和动作设计。第3节介绍了改进算法的设计。第4节涵盖了仿真和物理实验平台的构建,以及对对比实验结果的分析。第5节总结了研究结果和未来方向。
节选内容
DDQN算法
DDQN算法是对DQN算法的改进,主要区别在于动作选择和动作评估的方式。在DQN算法中,目标Q网络选择Q值最大的动作,并由目标Q网络评估该动作的价值。这种设计导致动作选择和评估都依赖于目标网络的参数,可能导致Q值被高估的问题。
引入加权注意力机制
在传统的DDQN方法中,神经网络模型对所有输入数据一视同仁地进行处理。然而,当输入数据的规模过大时,需要大量的计算资源,这会导致计算效率降低,进而影响模型的训练性能和准确性。为了解决这个问题,本文引入了加权注意力机制,通过有选择地关注输入数据中的关键信息,
实验设计与结果分析
为了验证本文提出的算法的可行性和有效性,在Ubuntu 20.04系统上进行了训练和测试的仿真实验,ROS系统版本为Noetic。处理器型号为Intel i7-13620H,内存为16GB,使用的仿真平台为Gazebo。
结论
本文解决了传统DDQN算法在复杂环境中的状态表示效率低、经验样本利用不平衡和奖励设置不合理等问题。提出了一种改进的DDQN算法,整合了加权注意力机制、累积奖励双阶段采样和APF奖励协同优化。首先,通过引入加权
CRediT作者贡献声明
张丽萍:撰写 – 审稿与编辑,资金获取。卢秋丽:可视化。王一林:撰写 – 审稿与编辑。冷中涛:撰写 – 原稿撰写。尹亚萌:方法论,数据整理。
利益冲突声明
作者声明以下可能被视为潜在利益冲突的财务利益/个人关系:张丽萍报告称获得了桂林航空航天科技大学的财务支持。报告与该校存在关联。如果有其他作者,他们声明没有已知的可能影响本文工作的财务利益或个人关系。
致谢
本研究得到了广西科技重大专项“应急救援机器人技术研发与成果转化”(Guike AA23023015)的资助。
张丽萍于2011年获得昆明理工大学博士学位,现任桂林航空航天科技大学机械与电气工程学院教授,研究兴趣包括机器人控制技术和智能传感技术。