一种用于协作操控中机器人任务与运动规划的层次化视觉-语言与强化学习框架

《IEEE Robotics and Automation Letters》:A Hierarchical Vision-Language and Reinforcement Learning Framework for Robotic Task and Motion Planning in Collaborative Manipulation

【字体: 时间:2025年11月20日 来源:IEEE Robotics and Automation Letters 5.3

编辑推荐:

  Vision-language-action (VLA) 模型在动态/长周期任务中存在鲁棒性差和实时调整不足的问题。本文提出VL-RL分层框架,上层VL planner具备多模态信息理解与高层任务规划能力,下层RL-based motion planner通过视觉反馈实现子任务级动态调整,有效解决环境变化带来的任务执行难题。实验验证其在双机器人协作抓取和长周期复杂任务中的高效性与稳定性优势。

  

摘要:

视觉-语言-动作模型(VLAs)采用端到端的学习架构,能够实现视觉感知、语义理解和运动控制的集成。然而,在处理动态或长时序任务时,VLAs在应对目标对象、指令和环境变化时的鲁棒性和实时调整能力较弱。为了解决这些问题,我们提出了VL-RL,这是一个分层框架,包括具有出色视觉信息理解和高级任务规划能力的视觉-语言(VL)规划器,以及基于强化学习(RL)的低级运动规划器,后者具有更高的灵活性和更广泛的应用范围。如果在任务执行过程中环境状态发生变化,VL-RL中的RL规划器将直接根据视觉反馈在子任务层面进行动态调整,以实现任务目标,而无需等待VL规划器进行耗时的信息处理。实验表明,VL-RL能够更高效、更稳定地完成双机器人协作操控任务。最后,我们的工作通过动态抓取任务和长时序复杂任务得到了验证。

引言

随着大型语言模型(LLMs)的快速发展,具身智能领域的研究迎来了新的机遇。这类模型在逻辑推理、工具调用、任务分解和指令理解方面表现出显著优势,为提升多智能体系统的认知决策和任务规划能力开辟了新路径。视觉-语言-动作模型(VLAs)是具身人工智能领域中的一种多模态模型,旨在整合和处理来自视觉、语言和动作模态的信息。例如,RT-2 [1] 和 OpenVLA [2] 最近被提出,用于接收和处理来自人类的语言指令以及来自环境中的视觉信息,执行环境场景理解与任务推理,并实现任务序列规划以生成适当的动作。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号