
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自步学习的多模态孤立手语识别研究:融合Transformer与图卷积网络的创新框架
【字体: 大 中 小 】 时间:2025年06月04日 来源:Expert Systems with Applications 7.5
编辑推荐:
【编辑推荐】针对手语识别(SLR)中数据模态单一、区域差异大及模型泛化能力不足等问题,中国科学院研究人员创新性地提出融合自步学习(Self-paced Learning)的多模态SLR框架,首次将Transformer与图卷积网络(GCN)集成应用于ISW-1000中文手语数据集。该研究通过多模态数据(骨骼/RGB/光流)的协同优化,使基准模型准确率提升12.3%,为聋健沟通提供了高精度技术方案。
手语作为聋人群体核心沟通工具,其复杂的手势、表情和空间语法特性导致学习门槛极高。尽管基于卷积神经网络(CNN)的手势识别已取得突破,但孤立手语识别(Isolated Sign Language Recognition, ISLR)仍面临三大挑战:时序建模受限(传统RNN/LSTM的短程交互缺陷)、数据模态单一(多数研究仅用RGB或骨骼数据)、以及区域化差异(缺乏跨地域标准化数据集)。这些瓶颈使得现有系统准确率停滞在80%左右,严重制约实际应用。
为突破这些限制,中国科学院团队在《Expert Systems with Applications》发表的研究中,构建了包含1000个中文手语词、10名聋人表演者参与的ISW-1000数据集(含RGB/光流/骨骼多模态数据),并创新性地提出"自步学习+多模态融合"框架。该工作首次将自步学习(Self-paced Learning)策略引入SLR领域,通过Transformer处理RGB时序特征、图卷积网络(Graph Convolutional Network, GCN)解析骨骼空间关系,最终采用动态加权融合策略实现12.3%的基准模型提升,为跨模态手语理解树立了新范式。
关键技术方法包括:1) 构建ISW-1000数据集(10,000视频样本,含10名聋人表演者的标准化采集);2) 基于Transformer的RGB模态时序建模;3) GCN驱动的骨骼关节点拓扑分析;4) 自步学习策略实现从易到难的渐进式训练;5) 多模态集成融合算法优化。
【ISW-1000数据集】
研究团队从《中国国家通用手语词典》精选1000个高频词,通过标准化环境采集形成首个覆盖多表演者风格的中文手语库。数据集包含骨骼关节点坐标、RGB视频流及光流数据,并划分签者独立测试集以评估模型泛化能力。伦理审查确认所有参与者签署数据使用协议。
【多模态自步学习框架】
针对骨骼数据,采用时空GCN建模关节点动态拓扑;RGB模态由Vision Transformer提取时空注意力特征;光流数据通过3D-CNN编码运动信息。创新点在于引入自步学习控制器,动态调整各模态样本训练难度权重,使模型优先学习"简单样本"(如清晰手势)再逐步攻克复杂案例(如快速连续动作)。实验显示该策略使GCN-Transformer融合模型的F1-score提升9.8%。
【集成融合优化】
通过消融实验验证:1) 骨骼模态对空间关系敏感(贡献率41.2%);2) RGB模态主导时序建模(贡献率38.5%);3) 光流数据弥补快速动作模糊(贡献率20.3%)。采用可学习权重分配的多模态融合机制后,模型在签者独立测试集上达到92.7%准确率,较单模态最优结果提升12.3个百分点。
结论与意义:该研究通过ISW-1000数据集填补了中文手语资源的空白,其多模态自步学习框架为复杂动作识别提供了新思路。特别地,自步学习策略的引入使模型在保持计算效率的同时显著提升鲁棒性,这对实际场景中的光照变化、个体差异等问题具有重要应用价值。未来工作将扩展至连续手语识别(CSLR)领域,并探索跨语言手语迁移学习。论文承诺公开数据集与代码以推动领域发展。
生物通微信公众号
知名企业招聘