机器人已广泛应用于制造业(Kadri, Selouani, Ghribi, Ghali, & Mekhoukh, 2025)、医疗保健(Shaw & Chen, 2025)和太空探索(Yin, Liu, Rui, & Yu, 2025)等领域。传统的刚性机器人手臂具有复杂的刚性连杆结构和重型执行器,这不可避免地导致较大的质量和较高的惯性,从而严重限制了它们的灵活性和部署能力。缆驱动冗余操纵器作为一种先进的刚柔混合配置,由于其轻量化和高顺应性,在医疗设备、狭小空间操作和太空探索中得到了广泛应用(Chen et al., 2025, Li et al., 2022, Li et al., 2024, Lin and Zhou, 2022, Tanaka and Hamaya, 2023, Xu et al., 2020, Zhang et al., 2025)。由于缆驱动系统中存在非线性因素,当前关于缆驱动机器人手臂的研究主要集中在运动学和动力学建模以及控制策略的开发上。
尽管缆驱动冗余操纵器在操作上具有优势,但由于固有的非线性动力学(包括摩擦和滞后),其部署变得复杂。建立精确的分析模型已成为必要,因此开发了多种近似技术。受章鱼触手等生物机制的启发,最近的研究建立了考虑横向缆变形的分析静态模型(Qi, Mei, Chen, Li, & Tan, 2024);同时,通过鲸鱼优化算法优化的神经网络被用来近似动态行为(Zhou et al., 2024)。为了解决超冗余的复杂性,研究人员改进了Denavit-Hartenberg参数以构建雅可比矩阵(Huang, Shen, Mei, & Chen, 2025)或采用了分段恒定曲率框架(Lai, Huang, Lu, Zhao, & Chu, 2022)。同时,运动学简化导致了用方程替代子关节变量(Liu, Xu, Yang, & Li, 2021)以及为分段旋转轴生成等效雅可比矩阵(Hu et al., 2019)。在静态分析方面,利用牛顿-欧拉方法建立了考虑重力、外部负载和摩擦的全面模型(Mu et al., 2025)。
在这些建模基础之上,传统控制策略得到了广泛探索。基于时间延迟估计的滑模控制已被研究用于补偿未知的系统动力学(Wang, Jiang, Yan, & Chen, 2017);而协调自适应阻抗控制律已被开发用于管理顺应性交互(Ma, Cheneler, He, Yuan, & Bian, 2025)。进一步的方法学进展包括用于逆运动学的双层几何迭代技术(Liu, Yang, Xu, Mylonas, & Liang, 2022)以及通过优化张力控制提高运动精度的自校准方法(Chen, Li, Wu, Liu, & Peng, 2024)。
上述控制策略的理论基础严重依赖于确定性的分析模型,如精确的雅可比矩阵和固定的动态参数。虽然在结构化环境中有效,但这些基于模型的方法在非结构化环境中遇到了根本性的瓶颈。目标位置的随机性和障碍物的动态演变引入了时变非线性和不可预测性,预计算的运动学模型无法适应这些变化,导致严重的“模型不匹配”和性能下降。相比之下,所提出的方法利用深度强化学习来学习端到端的控制策略,无需显式的物理建模。此外,通过集成LSTM,它理论上解决了缆动力学的非马尔可夫特性,如滞后和时延变形,从而克服了传统鲁棒控制的适应性限制。
人工智能(AI)经历了指数级增长,从根本上重塑了各种科学和工程领域。值得注意的是,基础模型如大型语言模型(LLMs)在复杂推理和跨学科应用中展示了卓越的能力,为智能系统提供了新的范式(Guo et al., 2025)。在机器人控制的特定背景下,AI算法越来越多地被引入以超越刚性分析模型的限制。虽然传统的AI范式如监督学习在感知和分类任务中取得了成功,但它们本质上依赖于高质量的标记数据集,而这些数据集在机器人操纵中往往很少见。此外,这些静态学习方法缺乏与环境主动交互或适应时间动态变化的机制,因此不足以完成连续控制任务。
深度强化学习(DRL)将深度学习与强化学习相结合,通过允许代理通过试错学习与环境交互并处理高维感官输入,从而克服现有限制并促进高维空间中的自主决策。
如表1所示,基于深度强化学习的当前机器人控制方法已经取得了一些进展。整合了正向运动学的框架(Chen, Su, Ni, & Li, 2024)和利用专家演示的框架(Ramirez & Yu, 2023)显著提高了控制性能。为了解决冗余系统中的障碍物回避问题,提出了结合RL与零空间运动的方法(Huang et al., 2023)或使用课程学习进行最优路径跟踪的方法(Chivkula, Rodwell, & Tallapragada, 2022)。其他重要贡献包括通过梯度投影解耦任务(Hua, Wang, Xu, & Chen, 2021);结合行为克隆正则化的离线算法(Ma et al., 2025);以及将人工势场与软演员-评论家算法相结合的混合规划器(Bai, Zhang, Guo, & Yue, 2023)。尽管有具体研究尝试结合长短期记忆(LSTM)网络来减轻动态不确定性(Zhou et al., 2024),现有的DRL框架通常难以完全解决非马尔可夫特性,特别是缆驱动机制在高度非结构化环境中的滞后和时延变形。
深度强化学习(DRL)已广泛应用于复杂的机器人控制任务,实现了高维状态空间中的自主决策。然而,在非结构化环境中的实际机器人应用中,DRL仍面临许多关键挑战。传统的深度强化学习算法通常从零开始学习。由于存在无效或危险的动作,它们不仅收敛缓慢,还经常出现训练失败。尽管之前的研究试图通过模仿学习整合专家经验来加速训练过程,但这些方法通常依赖于真实机器人的演示数据或手动设计的奖励函数,难以获得高质量和多样化的专家数据。
本文提出了一种深度强化学习(DRL)控制框架。它协同整合了专家指导、课程学习和LSTM网络,以提高效率和鲁棒性。
(1)引入了一种分层专家演示机制,使用轻量级的运动学模型来整合先验知识,从而加速探索效率。
(2)将基于LSTM的时间特征提取模块集成到软演员-评论家(SAC)框架中,以理论上解决非马尔可夫动力学问题,特别是滞后和时延变形。
(3)实施了一种三阶段课程学习策略,以分解高维操纵任务,确保在复杂环境中的稳定策略收敛和适应性。
本文的其余部分组织如下:第2节将运动规划问题表述为部分可观测的马尔可夫决策过程,并详细介绍了所提出的框架——包括分层专家演示生成机制、带有奖励塑形的双重经验回放、三阶段课程学习策略和增强型长短期记忆(LSTM)的软演员-评论家架构。第3节描述了实验设置,涵盖了操纵器模型、训练协议和评估指标。第4节通过比较实验验证了各个组件和整个框架的有效性。第5节总结了本文并讨论了未来的研究方向。