基于网页手势识别的全向自动驾驶汽车手势控制研究

【字体: 时间:2025年05月20日 来源:Array 2.7

编辑推荐:

  现有手势控制系统存在依赖穿戴设备、实时性差等问题。研究人员开展基于网页的手势识别模型研究,构建手势控制全向自动驾驶汽车系统。结果显示分类准确率达 94.2%, latency 150–300 ms。该研究为机器人领域人机交互提供新方向。

  
在自动化与智能交互需求日益增长的背景下,传统手势控制系统依赖穿戴传感器、成本高、环境适应性差等问题显著。例如,多数系统需用户佩戴手套或使用专用设备,且在动态场景中响应滞后,难以满足医疗、工业等场景的无接触操作需求。为突破这些局限,国外研究机构的研究人员开展了基于网页的手势识别与全向自动驾驶汽车控制研究,旨在构建低成本、易部署的无接触交互系统。该研究成果发表在《Array》,为智能机器人领域的人机交互提供了创新解决方案。

研究人员主要采用以下关键技术:利用 YOLOv5s(You Only Look Once v5 small)目标检测模型进行手势识别,通过 Raspberry Pi 硬件平台实现实时视频处理,结合 TensorFlow.js、Node.js 和 WebSocket 构建网页交互界面,实现浏览器内的手势检测与控制信号传输。此外,通过 Arduino 与 Raspberry Pi 的集成,驱动全向汽车的 Mecanum 轮实现多方向运动。

4.1 手势控制全向分析与结果


通过构建包含 4,772 张手势图像的自定义数据集,训练 YOLOv5s 模型。混淆矩阵显示,模型对 “前进”“后退” 等方向手势的识别准确率超 90%,整体分类准确率达 94.2%。 ANOVA 测试表明,各手势类别间识别差异无统计学意义,验证了模型的稳定性。训练至 50 epoch 时,模型在精准率、召回率和 F1 分数间取得平衡,mAP0.5达 0.962,显示出良好的目标检测性能。

4.2 手势控制网页


开发的网页界面基于 HTML、CSS 和 JavaScript,集成 Bootstrap 框架实现跨设备响应。用户通过浏览器访问 URL 即可启动摄像头,利用 TensorFlow.js 在本地执行模型推理,实时显示手势识别结果及置信度。WebSocket 技术确保 Raspberry Pi 与浏览器间的低延迟数据传输,实现手势指令的实时发送。

4.3 测试与结果


系统在不同光照条件(自然光、室内光、背光)及设备(PC、平板、手机)上进行测试。结果显示,“停止”“前进”“后退”“右” 手势的检测准确率超 90%,“左” 手势准确率达 85%。系统延迟为 150–300 ms,帧率稳定在 12–18 FPS,内存占用 160–280 MB,功耗约 5 W,适用于资源受限的实时场景。

4.4 实时应用与可扩展性


该系统在医疗场景可实现无接触运输物资,在工业环境支持仓库导航,在教育领域助力机器人教学,还可作为辅助技术帮助行动不便者。其网页架构无需专用硬件,成本约 510 美元,且支持通过 YOLOv5s 模型扩展识别手势种类或迁移至其他机器人平台,具备灵活的可扩展性。

研究结论表明,基于 YOLOv5s 和网页技术的手势控制全向汽车系统,成功实现了无穿戴设备的实时交互,突破了传统系统对专用硬件的依赖,显著降低成本并提升易用性。尽管存在复杂背景下识别率波动、单摄像头角度限制等不足,但其在医疗、工业、教育等领域的应用潜力巨大,为智能机器人的人机交互提供了低成本、易部署的新范式,推动了无接触控制技术在自动化与辅助领域的发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号