
-
生物通官微
陪你抓住生命科技
跳动的脉搏
一种用于协作操控中机器人任务与运动规划的层次化视觉-语言与强化学习框架
《IEEE Robotics and Automation Letters》:A Hierarchical Vision-Language and Reinforcement Learning Framework for Robotic Task and Motion Planning in Collaborative Manipulation
【字体: 大 中 小 】 时间:2025年11月20日 来源:IEEE Robotics and Automation Letters 5.3
编辑推荐:
Vision-language-action (VLA) 模型在动态/长周期任务中存在鲁棒性差和实时调整不足的问题。本文提出VL-RL分层框架,上层VL planner具备多模态信息理解与高层任务规划能力,下层RL-based motion planner通过视觉反馈实现子任务级动态调整,有效解决环境变化带来的任务执行难题。实验验证其在双机器人协作抓取和长周期复杂任务中的高效性与稳定性优势。
随着大型语言模型(LLMs)的快速发展,具身智能领域的研究迎来了新的机遇。这类模型在逻辑推理、工具调用、任务分解和指令理解方面表现出显著优势,为提升多智能体系统的认知决策和任务规划能力开辟了新路径。视觉-语言-动作模型(VLAs)是具身人工智能领域中的一种多模态模型,旨在整合和处理来自视觉、语言和动作模态的信息。例如,RT-2 [1] 和 OpenVLA [2] 最近被提出,用于接收和处理来自人类的语言指令以及来自环境中的视觉信息,执行环境场景理解与任务推理,并实现任务序列规划以生成适当的动作。
生物通微信公众号
知名企业招聘