基于大语言模型的语音视觉工业机器人控制系统研究:以雪蟹质检为例

【字体: 时间:2025年08月13日 来源:Results in Engineering 7.9

编辑推荐:

  为解决工业机器人编程复杂、非专家操作困难的问题,研究人员开发了基于大语言模型(LLM)的语音视觉控制系统,通过自然语言指令实现KUKA工业机器人的动态规划与执行。实验表明,该系统在雪蟹分类任务中成功率达98.46%,显著降低了人机交互门槛,为工业自动化提供了创新解决方案。

  

在工业4.0向工业6.0演进的背景下,传统工业机器人依赖专业编程语言的局限性日益凸显。非专家用户难以通过复杂代码与机器人交互,而动态生产环境又要求系统具备实时感知与自适应能力。尤其在水产品加工等场景中,人工质检效率低下且标准不一,亟需智能化的解决方案。

加拿大新不伦瑞克大学(University of New Brunswick)CFRIA实验室的研究团队创新性地将大语言模型(LLM)与工业机器人控制相结合,开发出支持语音指令和视觉反馈的自主控制系统。该系统通过Gemini-Flash-2.5模型解析自然语言,配合YOLOv11视觉算法实现雪蟹质量分级,最终以98.46%的成功率完成分类任务,相关成果发表于《Results in Engineering》。

研究采用三大关键技术:1)基于WebSocket的非侵入式机器人通信协议,避免依赖厂商私有方案;2)多模态感知架构,集成语音活动检测(VAD)、LLM意图解析和实时计算机视觉(含MLP分类器和YOLOv11分割模型);3)模块化Python控制工具链,实现运动规划、碰撞检测与执行反馈的闭环管理。

【实验评估】部分显示:在140组指令测试中,系统对简单运动、视觉任务和复杂指令的成功率均达100%,仅噪声干扰场景出现2例失败。YOLOv11模型在蟹体部位检测中实现92.06%的mAP@50-95精度,MLP分类器对蟹壳洁净度的判断准确率达97%。

【讨论】指出该系统的核心优势在于:1)首次在非协作型工业机器人(KUKA KR50)上实现LLM全流程控制;2)通过视觉-语言协同显著降低任务歧义;3)开源架构易于扩展至包装、装配等领域。尽管LLM推理延迟(平均778-1144ms)暂存优化空间,但其"一次规划-持续执行"机制确保了产线吞吐效率不受影响。

这项研究为人机协作提供了新范式,其"无代码编程"理念将加速工业智能化的普惠应用。未来工作可探索低秩自适应(LoRA)等轻量化技术,进一步提升系统响应速度与跨场景适应能力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号