综述：基于学习的软体机器人抓取：近期进展与遗留挑战

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Advanced Robotics Research》：Learning-Based Soft Robotic Grasping: Recent Progress and Remaining Challenges

【字体：大中小】 时间：2026年06月10日 来源：Advanced Robotics Research

编辑推荐：

　　机器人抓取经历了变革性进展，从固定运动的刚性夹爪发展到能够进行认知交互的适应性系统。在众多系统选项中，软体机器人夹爪（soft robotic grippers）凭借其固有的柔顺性和适应性，为克服操控可变形、不规则或脆弱物体的挑战提供了一条有前景的途径。为这些

机器人抓取经历了变革性进展，从固定运动的刚性夹爪发展到能够进行认知交互的适应性系统。在众多系统选项中，软体机器人夹爪（soft robotic grippers）凭借其固有的柔顺性和适应性，为克服操控可变形、不规则或脆弱物体的挑战提供了一条有前景的途径。为这些系统增强基于学习（learning-based）的控制和感知策略，可导致鲁棒、可泛化和智能的操控。尽管软体机器人学和机器学习领域均取得了显著进展，但相关文献中关于这两个领域交叉点的研究仍存在空白。本综述通过提供一种面向管道（pipeline-oriented）的视角来审视基于学习的软体机器人抓取，从而弥合这一空白。研究人员考察了软体夹爪设计、多模态传感（multimodal sensing）、基于学习的规划和控制策略方面的最新进展。研究人员还总结了用于抓取的神经网络（neural network, NN）架构，探索了基准数据集（benchmark datasets），并强调了非结构化环境中的泛化问题。研究人员进一步概述了关键挑战和潜在发展路径，强调了自监督学习（self-supervised learning）、模拟到现实迁移（sim-to-real transfer）以及将物理建模与自适应数据驱动策略相结合的统一架构（unified architectures）的必要性。本综述旨在作为开发可扩展、鲁棒且具备终身学习能力的软体机器人抓取系统的有价值工具和背景。

论文主体部分围绕基于学习的软体机器人抓取（soft robotic grasping）的完整管道（pipeline）展开，从感知、规划、控制到泛化，涵盖了设计、传感、学习算法和数据集等关键方面。

**2 软体机器人夹爪的类型**
软体夹爪设计利用多种驱动技术实现灵巧和自适应操控。缆线驱动系统（cable-driven systems）可扩展至多指设计，能传递高力且轻量化，但存在摩擦损耗和布线复杂问题。气动执行器（pneumatic actuators）通过压缩空气导致形变，可实现高柔顺性并保持夹爪轻量，但需要气泵和压力调节器，响应较慢。电机驱动（motor-driven）系统便于集成且能实现精确位置控制，但会降低柔顺性并增加重量。电磁驱动（electromagnetic actuation）提供快速响应和精确控制，但需要复杂屏蔽且力输出下降。基于阻塞的驱动（jamming-based actuation）通过颗粒、层或旋转阻塞实现可变刚度，未加压时具有柔顺性，但需要真空源且刚度切换慢。声学驱动（acoustic actuation）利用超声或声辐射压力驱动软结构，可实现无线非接触操作，但力输出有限且高度依赖频率。光学/光驱动（optical/light-driven actuation）使用光热或光响应材料，无线且具精确空间控制，但响应慢且材料在长期暴露下会退化。化学/形状记忆驱动（chemical/shape memory actuation）利用化学反应或热响应材料（如水凝胶、形状记忆合金SMA），可实现显著变形，但驱动慢、控制困难且存在疲劳问题。
生物启发设计方面，研究者从变色龙舌头快速伸展获得灵感开发出高效抓取机制；混合驱动结合气动与缆线元件，模仿自然界肌肉液压结构，实现了更复杂的运动模式和自由度。折纸启发设计（origami-inspired design）基于改进的吉村折纸模式，使用纸张-弹性体复合材料，解决了传统气动执行器的鼓胀问题，能进行捏取和包络抓取，但材料约束和制造复杂性限制了大规模应用。多模态抓取（multimodal grasping）的价值得到体现，例如一种软体多模态夹爪能执行包络抓取、吸力抓取和混合抓取模式，显著提高抓取效率。另一种无手指夹爪（fingerless gripper）使用软质环绕机构，可在不重新定向的情况下从各个方向抓取，适合动态或杂乱环境，但精确操控和强大抓取力有限。针对高速运动中的振动问题，可变刚度设计通过引入旋转阻塞层（rotational jamming layers, RJLs）在压力和刚度之间取得平衡，抑制振动的同时保持柔顺性。尽管软体夹爪在处理各类物体方面展现出潜力，但可重复性、耐久性、跨物体泛化能力以及实时适应性等问题仍需解决。深度学习集成提升了感知和控制性能，但材料科学和嵌入式传感技术仍面临挑战，如材料疲劳、响应慢以及在高柔顺结构内集成密集可靠传感的困难。为此，研究者开发了带有实时反馈机制的传感化软手（sensorized soft hands）以改善自适应抓取。

**3 抓取管道：阶段与挑战**
抓取涉及从感知到规划、控制及自适应学习的多阶段闭环过程。

**3.1 感知与传感**
机器人通过多种传感模态获取物体和环境信息。
**3.1.1 非接触视觉感知**
RGB-D或RGB摄像头用于物体检测、姿态估计和轨迹规划。传统视觉管道侧重物体检测与分割，例如使用Mask R-CNN结合ResNet50骨干网络定位物体并估计抓取姿态，通过主成分分析（principal component analysis, PCA）进行方向估计。Faster R-CNN和3D U-Net用于从部分视图重建物体形状。YOLO与3D点云生成用于三维形状可视化。图神经网络（graph neural networks, GNNs）在场景与物体识别中展现出前景，例如GraNet框架提取点云中有价值的表面点生成6自由度（6-DoF）抓取姿态，采用图特征嵌入（graph feature embedding, GFE）克服传统均匀采样的低效。然而，这些方法存在局限：R-CNN类算法计算需求高且依赖大规模标注数据集；Mask R-CNN易过拟合；GNN对采样质量敏感。
**3.1.2 触觉传感**
触觉使机器人能“感受”施加压力及物体是否滑落。研究者使用6轴力/力矩传感器覆盖可变形橡胶皮肤获取接触信息；基于离子水凝胶的电容传感器嵌入软手指，配合电阻应变传感器，其输出作为长短期记忆网络（long short term memory, LSTM）的输入用于物体分类。但水凝胶传感器耐久性有限。液体透镜光学触觉传感器通过接触变形改变内部气压，驱动液体使液态透镜曲率变化，从而改变折射并推断接触力，具有高灵敏度和快速响应。光纤布拉格光栅（Fiber Bragg Gratings）触觉传感器能够实现包括精细力辨别和滑移检测在内的多模态接触测量。
**3.1.3 多模态融合**
多模态传感结合触觉与视觉优势。一种实时视觉力估计系统使用卷积神经网络（convolutional neural network, CNN）处理模拟灰度图像，预测应力分布和接触力，无需物理力传感器，其中U-Net编码器-解码器架构提取潜在特征，一个分支预测应力分布，另一分支评估接触力。另一种系统将超声波遥感与摩擦电触觉传感器结合，通过特征级数据融合实现物体分类准确率达99.3%。采用三阶段架构：物体识别（使用分割任意模型SAM）和滑移预测、接触传感（触觉与力/力矩传感器）、以及基于Transformer的编码器融合多模态输入做出决策。基于视觉的触觉传感器TacTip通过摄像头观察接触时柔顺膜的变形模式，由PoseNet估计边缘、表面和接触姿态，引导实时抓取调整。CNN-贝叶斯分类器使用时空触觉图像识别物体刚度，准确率达97%。

**3.2 抓取规划与基于学习的方法**
机器人需确定抓取机制，包括抓取姿态、力度和成功率。
**3.2.1 监督学习**
Big-Net是一种基于CNN的编码器-解码器架构，由超过43亿个合成抓取训练，从深度图像预测抓取参数，对随机家居物体准确率达94%，对堆叠物体达86%。3D U-Net（物体抓取区域生成器OGAG）在ContactDB上训练，生成热图指示可抓取位置，并利用PCA确定最优手腕方向。SEG-Net使用深度残差CNN基于力平衡模型预测抓取成功率，在定制数据集上达95-100%。
**3.2.2 强化学习**
强化学习（reinforcement learning, RL）允许夹爪通过试错发展控制策略，在抓取规划与执行中广泛应用，可推理抓取可行性、调节接触力并适应交互。RL方法能利用多模态感觉反馈进行闭环自适应抓取，尤其适合处理脆弱和可变形物体。但实时性能与安全探索难以兼顾，将模拟中学习的策略迁移到物理硬件（sim-to-real）仍因软材料不稳定性和接触动力学而面临挑战。深度强化学习（DRL）技术被用于解决这些问题。
**3.2.3 模仿学习**
在奖励函数或动作标签难以定义时，模仿学习（imitation learning, IL）通过观察专家演示教学机器人。IL无需显式奖励函数，数据效率更高。一项研究使用Mask R-CNN进行实例分割，使软夹爪适应多种物体形状和方向，性能良好。Soft DAgger是一种样本高效的IL方法，通过动态行为映射（dynamic behavior mapping, DBM）将高层任务空间表示映射到低层驱动命令，与传统RL相比样本量减少多达99.7%，避免了模拟到现实鸿沟和样本低效问题。
**3.2.4 软体机器人特有的算法挑战与适配**
软体夹爪表现出非线性、滞后和高自由度，难以解析建模，数据驱动方法常不可或缺。标准算法（如深度Q网络DQN、深度确定性策略梯度DDPG）是为刚性夹爪开发的，直接应用于软体夹爪会出问题。状态表示方面，软体夹爪缺乏精确编码器，状态须从嵌入式传感器推断，增加了样本复杂度和对噪声的敏感性。动作空间方面，软体夹爪常通过连续耦合的执行器命令控制，算法需能应对连续、高维和非线性耦合的动作空间。针对这些挑战，Soft DAgger通过DBM避免精确运动学模型；SEG-Net引入针对柔性包络夹爪的力平衡模型，实现顺应性感知的抓取成功率预测。

**3.3 软体抓取的控制算法**
**3.3.1 传统PID控制**
PID控制易于实现且计算需求低，结合电容触觉反馈时鲁棒可靠。但缺乏对环境变化的适应性，且对线性系统更有效，需要专家知识调节系数。
**3.3.2 深度强化学习优化抓取执行**
深度强化学习（deep reinforcement learning, DRL）将控制算法推向新时代。常用的算法包括双延迟深度确定性策略梯度（twin delayed deep deterministic policy gradient, TD3）、DDPG和近端策略优化（proximal policy optimization, PPO）。混合模型如使用多个双重深度Q网络（double deep Q networks, DDQNs）分别专注于包络和捏取模式，以选择最优抓取。PPO与基于LSTM的前向动力学模型结合生成最优策略。信任区域策略优化（trust region policy optimization）确保基于LSTM状态预测的稳定策略更新。集成生成式抓取CNN（GG-CNN）和软演员-评论家（SAC）的系统实现了58.4%的成功率。
**3.3.3 其他基于深度学习的方法**
生物启发的脉冲神经网络（spiking neural network, SNN）架构由分层运动层和反射层组成，模仿人类抓取，无需力传感器或运动学模型。从人类手部协同作用中汲取灵感，可实现用更少变量进行灵巧抓取。
软体夹爪特有的非线性驱动问题使固定增益PID不合适，DRL方法（如DDPG、TD3、SAC）部分解决了从传感器反馈学习策略的问题，但引入了训练不稳定、对奖励整形的敏感性以及因软材料变形模拟困难导致的持续sim-to-real差距。混合方法结合学习策略与物理先验或经典反馈法则，为软体抓取控制提供了有前途的方向。

**3.4 泛化与自适应性**
机器人需动态适应未知环境，抓取机制必须能泛化到不同形状、尺寸、材料和情境。
**3.4.1 基于形状的抓取**
闭合特征（Closure Signature, CS）是一种表征软手自然闭合变形的新表示，通过奇异值分解（singular value decomposition, SVD）分析闭合过程中的参考点轨迹确定主要运动方向。将CS与物体形状（使用GQ-CNN抓取规划器获取）对齐以确定最佳抓取配置，使策略形状感知而非物体特定。SEG-Net通过深度残差CNN基于像素级热图预测深度、轴和质量分数。
**3.4.2 通过自学习算法实现持续自适应**
持续学习面临灾难性遗忘问题。连续策略蒸馏（Continuous Policy Distillation, CPD）将每个物体的专家RL策略（通过PPO获得）蒸馏成一个通用学生策略，结合基于示例的重放策略（如奖励优先重放ReplayRP）防止遗忘，使机器人能逐步发展出处理多种物体的通用控制器。
**3.4.3 图神经网络进行基于特征的泛化**
GNN直接从点云数据学习空间关系。GraNet架构通过图特征嵌入、物体点选择和有价值点选择的多阶段管道，准确为未见物体几何生成6-DoF抓取姿态，克服了传统均匀采样的低效。
**3.4.4 朝向更智能的抓取前后行为**
早期预测抓取失败受到关注。一种系统在软手上安装15个惯性测量单元（inertial measurement unit, IMU），捕获135个原始运动信号。两个CNN架构分别用于回顾性识别失败和预测失败，预测网络在1.96秒前预测失败，准确率90.6%，为抓取调整提供了关键时间窗口。

**4 与抓取任务相关的神经网络总结**
多种神经网络架构用于抓取任务，包括DQN用于离散抓取模式选择，DDQN用于多模态抓取模式专业化，DDPG用于连续压力/扭矩控制，TD3用于灵巧连续抓取控制，SAC用于手指级控制和闭环比策略学习，PPO用于实时抓取策略学习和轨迹跟踪，LSTM用于处理时间序列触觉/本体感受信号进行物体分类和滑移检测，GNN用于从点云生成6-DoF抓取姿态，深度CNN（包括GG-CNN、Big-Net、Mask R-CNN、YOLO、GQ-CNN、SEG-Net等）广泛用于触觉图像处理、视觉抓取姿态预测、接触力估计、物体分割和抓取质量评分，Transformer网络用于多模态传感器融合，SNN用于实现仿人抓取反射。

**5 数据集：构建基于学习的抓取基础**
视觉识别数据集（COCO、Open Images V4、TACO）为物体检测和分割提供基础资源。抓取中心的数据集如Dex-Net 2.0（670万点云）、Dex-Net 3.0（280万吸力抓取注释）、SuctionNet-1 Billion（11亿吸力注释）和GraspNet-1 Billion（11亿6-DoF姿态注释）用于训练和基准测试抓取检测算法，但主要为刚性夹爪设计。Jacquard提供110万抓取注释，EGAD!提供多样化合成物体用于泛化评估，MetaGraspNet V2结合合成和真实数据用于仓拣系统。人类中心数据集如ContactDB提供热接触图，YCB物体集提供标准化物体和3D模型。手-物体交互数据集如HO-3D v3和KIT双手操作数据集支持模仿学习和策略训练。多数RL和LSTM方法使用定制模拟环境或未正式命名的数据集，凸显了领域中缺乏标准化基准的重现性挑战。

联系信箱：

粤ICP备09063491号

热点排行