一种用于缆绳驱动冗余机械手的无碰撞运动规划方法,该方法结合了基于深度强化学习的专家指导机制以及长短期记忆(LSTM)技术

《Expert Systems with Applications》:A collision-free motion planning method for cable-drive redundant manipulators with deep reinforcement learning-based expert guidance and long short-term memory

【字体: 时间:2026年02月21日 来源:Expert Systems with Applications 7.5

编辑推荐:

  电缆驱动冗余机械臂的深度强化学习控制框架研究,提出融合专家指导、课程学习和LSTM网络的SAC-LSTM架构,有效解决非线性动力学带来的实时性与鲁棒性平衡难题,在复杂多障碍场景中实现零碰撞和最优综合性能。

  
程碧怡|张新德|马创|李家祥|黄凯翔|钟奇亮|关英元|尹学明|邱玉元|王轩|王洪军
华南农业大学工程学院,广州510642,中国

摘要

为了解决传统控制方法在处理具有强非线性的缆驱动冗余操纵器时难以平衡实时性能和鲁棒性的问题,本文提出了一种端到端的深度强化学习控制框架,该框架整合了专家指导、课程学习和长短期记忆(LSTM)网络。通过使用分层专家演示生成机制和三阶段课程学习策略,该框架将历史状态序列映射到控制动作上,显著提高了样本效率和训练稳定性。实验结果表明,所提出的SAC-10%–LSTM模型在复杂的多障碍场景中实现了最佳的综合性能,平均累积奖励为33,400.22,平均最终距离为0.033米,且无碰撞。与GRU模型相比,GRU模型将决策步骤减少了24.7%,但平均回报略低,为29,945.34;而所提出的模型将回报提高了约10.3%,并有效克服了TCN模型由于视野短浅导致的低奖励(7290.89)和高碰撞率问题。参数敏感性分析确认输入序列长度为30是最优的,在仅2.00小时的训练时间内即可实现100%的任务成功率和0.033米的最终距离,优于长度超过70的非收敛长序列和长度不足10的短序列。此外,在包含一个到三个障碍的九种泛化场景中,最终距离稳定在0.028米到0.040米之间,有效解决了传统APF方法中存在的刚性约束抖动、几何死锁和局部最小值问题,从而为高自由度欠驱动系统的智能控制提供了一种有效范式。

引言

机器人已广泛应用于制造业(Kadri, Selouani, Ghribi, Ghali, & Mekhoukh, 2025)、医疗保健(Shaw & Chen, 2025)和太空探索(Yin, Liu, Rui, & Yu, 2025)等领域。传统的刚性机器人手臂具有复杂的刚性连杆结构和重型执行器,这不可避免地导致较大的质量和较高的惯性,从而严重限制了它们的灵活性和部署能力。缆驱动冗余操纵器作为一种先进的刚柔混合配置,由于其轻量化和高顺应性,在医疗设备、狭小空间操作和太空探索中得到了广泛应用(Chen et al., 2025, Li et al., 2022, Li et al., 2024, Lin and Zhou, 2022, Tanaka and Hamaya, 2023, Xu et al., 2020, Zhang et al., 2025)。由于缆驱动系统中存在非线性因素,当前关于缆驱动机器人手臂的研究主要集中在运动学和动力学建模以及控制策略的开发上。
尽管缆驱动冗余操纵器在操作上具有优势,但由于固有的非线性动力学(包括摩擦和滞后),其部署变得复杂。建立精确的分析模型已成为必要,因此开发了多种近似技术。受章鱼触手等生物机制的启发,最近的研究建立了考虑横向缆变形的分析静态模型(Qi, Mei, Chen, Li, & Tan, 2024);同时,通过鲸鱼优化算法优化的神经网络被用来近似动态行为(Zhou et al., 2024)。为了解决超冗余的复杂性,研究人员改进了Denavit-Hartenberg参数以构建雅可比矩阵(Huang, Shen, Mei, & Chen, 2025)或采用了分段恒定曲率框架(Lai, Huang, Lu, Zhao, & Chu, 2022)。同时,运动学简化导致了用方程替代子关节变量(Liu, Xu, Yang, & Li, 2021)以及为分段旋转轴生成等效雅可比矩阵(Hu et al., 2019)。在静态分析方面,利用牛顿-欧拉方法建立了考虑重力、外部负载和摩擦的全面模型(Mu et al., 2025)。
在这些建模基础之上,传统控制策略得到了广泛探索。基于时间延迟估计的滑模控制已被研究用于补偿未知的系统动力学(Wang, Jiang, Yan, & Chen, 2017);而协调自适应阻抗控制律已被开发用于管理顺应性交互(Ma, Cheneler, He, Yuan, & Bian, 2025)。进一步的方法学进展包括用于逆运动学的双层几何迭代技术(Liu, Yang, Xu, Mylonas, & Liang, 2022)以及通过优化张力控制提高运动精度的自校准方法(Chen, Li, Wu, Liu, & Peng, 2024)。
上述控制策略的理论基础严重依赖于确定性的分析模型,如精确的雅可比矩阵和固定的动态参数。虽然在结构化环境中有效,但这些基于模型的方法在非结构化环境中遇到了根本性的瓶颈。目标位置的随机性和障碍物的动态演变引入了时变非线性和不可预测性,预计算的运动学模型无法适应这些变化,导致严重的“模型不匹配”和性能下降。相比之下,所提出的方法利用深度强化学习来学习端到端的控制策略,无需显式的物理建模。此外,通过集成LSTM,它理论上解决了缆动力学的非马尔可夫特性,如滞后和时延变形,从而克服了传统鲁棒控制的适应性限制。
人工智能(AI)经历了指数级增长,从根本上重塑了各种科学和工程领域。值得注意的是,基础模型如大型语言模型(LLMs)在复杂推理和跨学科应用中展示了卓越的能力,为智能系统提供了新的范式(Guo et al., 2025)。在机器人控制的特定背景下,AI算法越来越多地被引入以超越刚性分析模型的限制。虽然传统的AI范式如监督学习在感知和分类任务中取得了成功,但它们本质上依赖于高质量的标记数据集,而这些数据集在机器人操纵中往往很少见。此外,这些静态学习方法缺乏与环境主动交互或适应时间动态变化的机制,因此不足以完成连续控制任务。
深度强化学习(DRL)将深度学习与强化学习相结合,通过允许代理通过试错学习与环境交互并处理高维感官输入,从而克服现有限制并促进高维空间中的自主决策。
如表1所示,基于深度强化学习的当前机器人控制方法已经取得了一些进展。整合了正向运动学的框架(Chen, Su, Ni, & Li, 2024)和利用专家演示的框架(Ramirez & Yu, 2023)显著提高了控制性能。为了解决冗余系统中的障碍物回避问题,提出了结合RL与零空间运动的方法(Huang et al., 2023)或使用课程学习进行最优路径跟踪的方法(Chivkula, Rodwell, & Tallapragada, 2022)。其他重要贡献包括通过梯度投影解耦任务(Hua, Wang, Xu, & Chen, 2021);结合行为克隆正则化的离线算法(Ma et al., 2025);以及将人工势场与软演员-评论家算法相结合的混合规划器(Bai, Zhang, Guo, & Yue, 2023)。尽管有具体研究尝试结合长短期记忆(LSTM)网络来减轻动态不确定性(Zhou et al., 2024),现有的DRL框架通常难以完全解决非马尔可夫特性,特别是缆驱动机制在高度非结构化环境中的滞后和时延变形。
深度强化学习(DRL)已广泛应用于复杂的机器人控制任务,实现了高维状态空间中的自主决策。然而,在非结构化环境中的实际机器人应用中,DRL仍面临许多关键挑战。传统的深度强化学习算法通常从零开始学习。由于存在无效或危险的动作,它们不仅收敛缓慢,还经常出现训练失败。尽管之前的研究试图通过模仿学习整合专家经验来加速训练过程,但这些方法通常依赖于真实机器人的演示数据或手动设计的奖励函数,难以获得高质量和多样化的专家数据。
本文提出了一种深度强化学习(DRL)控制框架。它协同整合了专家指导、课程学习和LSTM网络,以提高效率和鲁棒性。
  • (1)
    引入了一种分层专家演示机制,使用轻量级的运动学模型来整合先验知识,从而加速探索效率。
  • (2)
    将基于LSTM的时间特征提取模块集成到软演员-评论家(SAC)框架中,以理论上解决非马尔可夫动力学问题,特别是滞后和时延变形。
  • (3)
    实施了一种三阶段课程学习策略,以分解高维操纵任务,确保在复杂环境中的稳定策略收敛和适应性。
  • 本文的其余部分组织如下:第2节将运动规划问题表述为部分可观测的马尔可夫决策过程,并详细介绍了所提出的框架——包括分层专家演示生成机制、带有奖励塑形的双重经验回放、三阶段课程学习策略和增强型长短期记忆(LSTM)的软演员-评论家架构。第3节描述了实验设置,涵盖了操纵器模型、训练协议和评估指标。第4节通过比较实验验证了各个组件和整个框架的有效性。第5节总结了本文并讨论了未来的研究方向。

    章节片段

    复杂非结构化环境中缆驱动操纵器的混合规划框架

    针对在复杂非结构化环境中运行的缆驱动冗余操纵器的运动规划中高探索成本和易受局部最优解影响的挑战,提出了一种结合传统路径规划和深度强化学习的混合框架。
    研究对象是一种高自由度的柔性缆驱动冗余操纵器,其核心结构由四个通过通用关节串联连接的刚性连杆组成,

    案例研究

    为了系统评估所提出的课程学习框架在复杂障碍物回避任务中的有效性,本节详细介绍了所采用的方法论、强化学习代理的具体训练参数以及课程学习过程的每个阶段的配置。

    结果与讨论

    本节展示了所提出的课程学习框架的性能,讨论了消融研究的结果,确定了影响模型训练的因素,并评估了框架内关键组件的有效性。

    结论

    为了解决模拟缆驱动冗余操纵器(CDRMs)中的高维控制和非线性滞后的复杂性,开发了一种结合动态专家指导和基于LSTM的时间建模的课程学习框架。通过整合这些机制,所提出的方法不仅在奖励稀疏的环境中表现出优越的导航能力,还显著提高了虚拟模拟中运动规划的鲁棒性。

    CRediT作者贡献声明

    程碧怡:概念化、方法论、调查、软件、可视化、监督、写作——审阅与编辑、项目管理。张新德:写作——初稿、写作——审阅与编辑、软件。马创:软件。李家祥:调查。黄凯翔:调查、数据整理。钟奇亮:关英元:尹学明:邱玉元:王轩:王洪军:监督、写作——审阅与编辑。

    利益冲突声明

    作者声明他们没有已知的竞争财务利益或个人关系可能会影响本文报告的工作。

    致谢

    作者衷心感谢国家自然科学基金(资助编号:32372001)、广东省自然科学基金(资助编号:2025A1515012307)、广东省科技计划(资助编号:2025B0202100002)、广州市基础与应用基础研究专项(资助编号:2025A04J1177)、特定大学学科建设项目(资助编号:2023B10564002)以及开放研究课题的支持。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号