
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于视觉语言模型增强的具身智能框架在数字孪生辅助人机协作装配中的应用研究
【字体: 大 中 小 】 时间:2025年09月04日 来源:Journal of Infection 11.9
编辑推荐:
这篇综述创新性地提出了一种VLM(Vision Language Model)增强的具身智能框架,通过数字孪生(DT)技术实现人机协作(HRC)装配的动态感知、任务推理与自主执行。研究解决了传统HRC中模型重复训练、环境适应性差等问题,结合VLM的强泛化能力和DT的仿真推演优势,构建了"具身小脑-具身大脑-具身神经元"的闭环系统,为工业5.0时代的智能装配提供了新范式。
亮点章节
视觉语言模型(VLM)在HRC中的应用
VLM近年成为让机器人理解视觉与语言信息的利器,其在HRC装配系统的应用形成了四维技术架构:场景感知、任务推理、自主决策、代码生成与执行。在HRC场景感知方面,VLM能实现视觉特征与自然语言的深度融合,像"生物感官"般动态解析装配环境中的多模态数据。
方法框架
如图1所示,本研究的VLM增强具身智能框架包含HRC装配机器人具身智能体构建、VLM增强环境感知、基于DT的决策等模块。该框架强调通过"感知-推理-决策-执行"的闭环实现持续进化,像"数字生命体"般适应动态装配场景。
VLM增强具身智能体的构建
图2展示了HRC装配具身智能体的多层架构,其核心是将物理协作机器人转化为具备感知-推理-决策-执行全链条能力的智能体。通过分析机器人物理结构,建立了实体映射机制和功能编码机制,使智能体像"仿生神经系统"般实现硬件与智能的有机融合。
实验环境
如图10所示,研究在航空航天电子舱复杂产品HRC装配平台上验证方法有效性。该平台配备多台Elite EA66协作机器人、高性能GPU服务器、HoloLens 2 AR交互设备等,构建了高度仿真的智能装配实验场。
结论与展望
本研究创新地将VLM增强具身智能应用于DT辅助的HRC装配,实验证明该框架凭借VLM的强泛化能力,可避免传统多模型重复训练问题。未来将探索更复杂的跨模态交互机制,让机器人像"进化中的数字生命"般持续提升协作智能。
生物通微信公众号
知名企业招聘