综述:基于机器学习的手语识别信号系统为聋哑人设计
【字体:
大
中
小
】
时间:2025年10月12日
来源:MethodsX 1.9
编辑推荐:
这篇综述提出了一种轻量级框架,通过整合MediaPipe手部关键点检测与双分类器系统,实现了静态和动态手势的实时识别。该系统在仅使用CPU的情况下达到94.1%的准确率和30 FPS的帧率,相比CNN、Transformer和TinyML基线,在准确性、效率和可及性方面取得了更优的平衡,为辅助通信应用提供了低资源解决方案。
沟通是人类互动的基石,然而存在言语障碍或处于敏感环境中的个体常常面临有效传达思想的困境。聋哑人与普通大众之间的交流存在主要限制,因为大多数人不熟悉手语,且专业翻译人员并非随时可用。这种限制通常导致社会歧视、服务获取受限以及对日常沟通的依赖。手势识别为聋哑人提供了直观的通信渠道,但大多数现有方法计算密集,不适合在普通硬件上实时应用。
手势分类系统可大致分为基于视觉和基于传感器的方法。基于视觉的系统通常采用卷积神经网络(CNN)或Transformer进行特征提取和分类,但这些模型需要高计算资源。基于传感器的系统,如仪器化手套或惯性测量单元(IMU)传感器,虽然精度高,但因硬件要求而缺乏可及性。MediaPipe已成为高效提取手部关键点的实用解决方案。我们的方法在此基础上,集成了用于静态手势的关键点分类器(Key Point Classifier)和用于动态手势的带长短期记忆网络(LSTM)的点历史分类器(Point History Classifier),确保了准确性和效率。
该系统的开发涉及细致的规划和执行,包括数据集准备、模型选择、实现和系统集成。
手部关键点(每只手21个)使用MediaPipe提取。采用相对坐标:通过减去手腕坐标(点0)对每个关键点进行归一化。缩放:通过最大关键点间距离进行归一化,以考虑手部尺寸变化。数据集通过实时数据收集和预处理生成。数据源:一名参与者 across 三个记录会话,捕捉了光照、方向和背景的变化。类别:A、B、C、D、Open、Close、OK。样本:每类500个,总计3,500个。未来扩展计划包含多参与者数据集以提升泛化能力。
为了标准化分类模型的输入,原始数据经过预处理,包括归一化:将所有手部关键点转换为相对坐标以考虑手部大小和相机距离的变化。缩放像素点:归一化手部尺度和图像中的位置,以最小化不同使用者之间的变异性。
采用了镜像(模拟左手操作)、旋转(模拟自然手势)、噪声添加(模拟现实世界的不稳定性)以及时间变换(加速/减速序列、帧丢弃、时间抖动)等技术。
数据集按70%训练集、20%验证集和10%测试集进行划分。分别为静态手势(关键点)和动态手势(点历史)生成了独立的数据集。
使用MediaPipe Hands(版本0.9.1)进行手部检测,该解决方案可提供每只手21个3D关键点。参数设置包括:检测置信度阈值0.7,跟踪置信度阈值0.7,每帧最大检测手数1,模型复杂度1。
检测到手部关键点后,提取特征用于分类:静态手势:提取21个关键点的快照,用于识别数字或命令等符号。动态手势:将时间序列关键点临时存储到历史缓冲区中,用于识别滑动或定向运动等手势。
训练了两个分类器:关键点分类器:一个轻量级神经网络,设计用于诊断静态手势。输入为归一化的21个关键点,输出为单个手势类别。点历史分类器:一个用于识别动态手势的序列模型。
分类器被训练以实现高识别精度,同时满足实时处理速度。关键点分类器使用分类交叉熵作为损失函数,Adam优化器(学习率0.001),训练50个周期,输入层63个单位,隐藏层分别为128和64个单位,输出层50个单位。点历史分类器使用LSTM-based序列模型处理时间序列数据,输入序列长度为30帧,LSTM层分别为128和64个单位,使用Dropout(0.2)防止过拟合,损失函数为分类交叉熵,优化器为Adam,批量大小32,周期数50。模型使用验证集进行评估,指标包括准确率、混淆矩阵等。
系统使用Python实现,利用了MediaPipe、OpenCV、NumPy等库。管道设计为以最小延迟实时运行,关键组件包括摄像头输入、手部检测模块、分类模块和输出渲染。为确保证流畅执行,进行了模型复杂性优化和手势历史缓冲区大小调整等性能优化。
面临的挑战包括手部遮挡(部分手被遮挡导致检测精度下降)、光照变化(低光照或强烈对比度下性能波动)以及手势速度与复杂性(快速或复杂运动模式识别困难)。
硬件环境包括训练使用Intel i5 CPU、NVIDIA GTX 1650 GPU、16 GB RAM,测试仅在CPU模式下进行。软件环境为Python 3.10、MediaPipe、OpenCV、TensorFlow/Keras。评估指标包括准确率、精确率、召回率、F1分数、执行速度和光照条件下的鲁棒性。
系统在350个测试样本上达到94.1%的准确率。关键点分类器准确率为91.2%,点历史分类器为92.5%,组合系统达到94.1%。实时能力方面,CPU处理速度为28毫秒/帧(约30 FPS),GPU为10毫秒/帧。鲁棒性测试显示,在明亮室内环境下为基线准确率,昏暗室内下准确率下降约4%,混合背景下下降约6%。
与CNN(高精度、低速度)、Transformer(鲁棒性强、计算量大)和TinyML(高效但精度较低)等基线方法相比,本文提出的系统在准确性和速度之间取得了平衡。
该系统的优势包括全面的静态手势识别能力、实时处理能力以及手势灵活性。面临的挑战和局限性主要在于动态手势识别精度相对较低、对环境条件敏感以及手部遮挡和定位问题。未来的改进方向包括采用更先进的序列模型、增强环境鲁棒性、改进遮挡处理的手部跟踪技术以及扩展手势集。
本项目成功演示了一种基于机器学习的聋哑人手语识别信号系统,利用计算机视觉和机器学习技术实时识别七种独特的手势。通过整合MediaPipe进行手部检测、关键点分类器和点历史分类器进行手势识别,该架构在实时场景中表现出鲁棒的性能。该系统在辅助通信、增强人机交互以及促进教育、医疗保健和机器人技术等领域的可及性框架方面具有显著潜力。
当前研究的局限性包括单参与者数据集限制了泛化能力,仅测试了7种手势,未使用交叉验证。未来的工作将侧重于与硬件设备集成、扩展到完整句子通信、改进手势库、增加数据集多样性、与语音输出集成、更平滑的实时处理、在机器人技术中的应用以及进行可用性测试和反馈收集。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号