基于混合强化学习与双向长短期记忆网络的水循环与能源网络数据重构增强网络安全韧性研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月13日 来源：Results in Engineering 7.9

编辑推荐：

　　为解决工业机器人编程复杂性和人机交互障碍问题，研究人员开发了基于大语言模型（LLM）的语音-视觉机器人控制系统。通过集成Gemini-Flash-2.5模型、实时计算机视觉和WebSocket通信，实现了98.46%指令解析成功率，为工业自动化提供了零样本、低成本的解决方案。

在工业4.0向6.0演进的过程中，传统工业机器人面临两大痛点：一是编程依赖专家知识，非技术人员难以操作；二是动态环境下的实时决策能力不足。尽管大语言模型（LLM）在自然语言处理领域表现卓越，但其在工业场景的应用仍存在可靠性挑战——一项研究表明，未经调整的LLM在工业指令执行中错误率高达14%。这促使研究人员探索如何将LLM的认知能力与工业机器人的精确控制相结合。

CFRIA Lab的研究团队在《Results in Engineering》发表的研究中，创新性地构建了基于Gemini-Flash-2.5的多模态控制系统。该系统通过语音指令解析、YOLOv11视觉检测和WebSocket实时通信三大技术支柱，在雪蟹分拣场景中实现了98.46%的任务成功率。特别值得注意的是，研究首次在非协作型工业机器人（KUKA KR50 R2100）上验证了LLM直接控制的可行性，打破了该领域长期依赖仿真环境的局限。

关键技术方法包括：1）采用轻量化Gemini-Flash-2.5模型进行语音-文本转换和意图解析；2）开发基于YOLOv11的实时视觉系统检测蟹壳清洁度、螯足数量等特征；3）构建Python-WebSocket控制框架实现非专有化机器人通信；4）设计包含碰撞检测（is_in_collision_zone）和目标验证（wait_for_target）的安全机制。

研究结果部分显示：

视觉系统性能：YOLOv11模型在蟹体分割任务中达到mAP@50-95=92.06%，MLP分类器对蟹壳清洁度的判断准确率达97%。
指令解析能力：在140条测试指令中，简单运动指令解析成功率100%，噪声指令仍保持90%成功率，整体平均尝试次数仅1次。
实时性表现：LLM推理延迟为637-1144ms，WebSocket传输延迟8ms，满足工业场景的时序要求。

该研究的突破性在于：首次实现LLM对重型工业机器人的直接控制，通过模块化设计规避了传统VLM（Vision-Language Model）的模糊性问题。研究中开发的"认知-感知-执行"闭环架构，为工业6.0时代的人机协作提供了可复用的技术范式。正如讨论部分强调的，这种无需微调（fine-tuning）的零样本方法，显著降低了企业部署AI技术的门槛，其Python-WebSocket通信方案更打破了工业机器人领域的专有协议垄断。未来，该框架可扩展至包装、装配等领域，推动工业自动化向"自然交互"时代迈进。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号