基于深度Transformer的CvT模型在视觉通信手语识别中的创新研究
《Scientific Reports》:A novel deep transformer based CvT model for sign language recognition in visual communication
【字体:
大
中
小
】
时间:2025年12月22日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对手语识别中复杂手势、光照变化和遮挡等挑战,提出了一种基于卷积视觉Transformer(CvT)的新型深度学习模型。通过融合分层卷积标记化与自注意力机制,该模型在包含10个类别1,712张图像的手语数字数据集和29个类别87,000张图像的字母符号数据集上分别达到99%的识别准确率,显著优于传统CNN和BeIT模型。研究成果为开发实时辅助通信系统提供了技术支撑,对促进听障人群的社会包容性具有重要意义。
在人类交流的丰富图景中,语言扮演着不可或缺的角色。然而对于全球数亿听障人士而言,传统口语交流方式存在显著障碍,这使得手语成为他们表达思想、情感和需求的重要媒介。随着人工智能和计算机视觉技术的迅猛发展,自动手语识别(SLR)系统逐渐成为打破沟通壁垒的关键技术,在辅助通信、教育、医疗和人机交互等领域展现出广阔应用前景。
传统基于规则和统计模型的人工智能方法在处理复杂手势、多变光照条件和遮挡时往往力不从心。尽管深度学习技术特别是卷积神经网络(CNN)提升了识别能力,但这些模型仍难以捕捉精确分类所需的空间和时间依赖性。视觉Transformer(ViT)的出现为这一领域带来了突破,其通过自注意力机制实现卓越的特征提取能力,能够有效建模长程依赖关系。
发表于《Scientific Reports》的这项研究创新性地提出了一种卷积视觉Transformer(CvT)模型,该模型通过整合分层卷积标记化与基于Transformer的注意力机制,优化了局部和全局特征提取。研究团队在两个公开数据集上验证了模型性能:包含10个类别1,712张图像的手语数字数据集,以及包含29个类别87,000张图像的字母符号数据集。
研究方法涵盖三个关键阶段:数据预处理、特征提取与分类。预处理阶段采用图像调整大小、随机翻转、旋转增强、高斯平滑滤波和伽马校正等技术提升数据质量。特征提取阶段,CvT模型通过分层卷积标记化处理输入图像,生成结构化表征,并利用多头自注意力机制细化特征。分类阶段则通过Transformer的自注意力机制实现手势分类,显著降低误分类误差。
研究团队实施了系统的预处理策略以提高图像质量。如图3所示,经过预处理后的手语图像在视觉清晰度和一致性方面得到显著改善,为模型提供了高质量的输入数据。
CvT模型的工作流程如图4所示,其中图4(a)展示了分层卷积标记化过程,图4(b)呈现了最终分类阶段。该架构通过将卷积操作直接集成到注意力机制中,使模型能够在注意力计算前编码局部空间上下文。与标准Transformer不同,CvT块引入了基于卷积的标记嵌入、卷积Q-K-V生成和空间感知下采样,从而更好地捕捉精细手势结构。
研究使用了两个基准数据集进行评估。数据集1包含1,712张100×100像素的RGB手语数字图像,均匀分布在0-9十个类别中。数据集2则包含87,000张200×200像素的ASL字母图像,涵盖26个英文字母以及SPACE、DELETE和NOTHING三个实用类别。数据集样本如图5和图6所示,展示了不同类别的视觉特征。
在数据集1上的评估表明,CvT模型实现了99%的整体准确率。如表7所示,多数类别(A0、A1、A2、A3、A6、A7和A9)达到了100%的精确度、召回率和F1分数,仅A4和A8类别出现轻微性能波动。混淆矩阵分析(图7)显示模型仅在手势相似的A4和A8类别间存在少量误分类。
训练过程分析显示,CvT模型在前25个周期内准确率迅速提升至90%以上,随后趋于稳定(图8)。损失曲线(图9)表明训练和验证损失均稳步下降,未见过拟合现象。置信度分析进一步验证了模型的可靠性,大多数预测置信度超过90%(图10和图11)。
与CNN和BeIT基线模型的比较显示,CvT在各项指标上均优于传统方法。CNN模型整体准确率为90%,但在A4等类别上表现较差(召回率仅60%),且训练过程波动较大(图20-23)。BeIT模型虽达到97%准确率,但验证损失在训练后期出现波动,表明泛化能力不如CvT稳定(图15-18)。
综合对比结果(图25和31)表明,CvT在准确率、稳定性和泛化能力方面均优于对比模型。如表11所示,CvT以99%的准确率显著高于CNN(90%)和BeIT(97%)。
在更具挑战性的ASL字母数据集上,CvT模型同样表现出色,达到99%的识别准确率。训练过程分析(图26-27)显示模型收敛稳定,未见明显过拟合。梯度加权类激活映射(Grad-CAM)可视化(图29)表明模型能够准确聚焦于手势的关键区域,如手指轮廓和手掌边界,验证了其空间注意力准确性。
本研究的主要贡献在于提出了一个融合卷积局部性优势和Transformer全局依赖建模能力的混合架构。CvT通过分层卷积标记化逐步提炼令牌表征,在降低计算开销的同时保留空间粒度。多头自注意力机制则进一步细化提取的特征,提升了对细微手势差异的区分能力。
与现有研究相比(表12),CvT在识别准确率上实现了显著提升,较传统CNN方法提高9%,较最新Transformer方法提高2%。这种性能提升归因于其独特的架构设计,使模型能够同时捕捉局部细节和全局上下文信息。
研究结论表明,CvT模型在手语识别任务中表现出卓越的性能,其高准确率、稳定置信度预测和良好泛化能力使其非常适合实际应用部署。未来研究方向包括实时部署优化、多语言手语识别扩展以及边缘设备效率提升。通过整合动态手势和上下文变化的多模态数据,将进一步增强模型的实用性和适应性。
这项研究为开发更先进、AI驱动的手语识别系统奠定了基础,对促进听障人士的社会包容性和无障碍通信具有重要意义,特别是在教育、工作和社交场合中的实际应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号