基于局部敏感哈希聚类与多尺度特征提取的手语生成优化研究

【字体: 时间:2025年06月19日 来源:Speech Communication 2.4

编辑推荐:

  针对长文本序列输入导致手语生成(SLP)模型效率低下、语义信息利用不足的问题,研究人员提出融合局部敏感哈希(LSH)-聚类算法与多尺度特征提取网络的新方法,通过聚合相似词向量和增强文本特征,显著提升连续手语姿态序列的生成准确性和流畅性。实验证明该方法在PHOENIX14T数据集上优于基线模型,为听障人群的数字交互提供了更高效的解决方案。

  

手语作为一种包含复杂语法结构的视觉语言,是听障群体与外界沟通的重要桥梁。然而,当前基于深度学习的自动手语生成(Sign Language Production, SLP)系统面临两大挑战:一是长文本输入导致模型计算效率低下,二是难以充分捕捉手语中细腻的非语言信息(如表情、肢体动态),生成的骨骼姿态序列往往流畅度不足,影响听障用户的理解体验。传统方法采用分阶段处理(如T2G→G2P),但信息损失严重;而端到端的T2P方法虽直接,却因注意力机制对长序列建模能力有限,难以兼顾效率与准确性。

为此,国内研究人员提出创新性解决方案,核心是通过局部敏感哈希(Locality Sensitive Hashing, LSH)聚类算法优化文本向量处理流程,结合多尺度卷积网络提取手语注释(gloss)的局部特征。研究团队在《Speech Communication》发表的论文中,采用Transformer架构为基础,首先对输入文本嵌入向量进行LSH分桶和聚类,将相似词向量自动聚合,显著减少注意力矩阵的计算量;同时设计多尺度特征提取模块,通过不同尺寸的卷积核捕获gloss的局部上下文特征,并与文本向量融合以增强语义表达。实验采用德国RWTH-PHOENIX-Weather 2014T(PHOENIX14T)数据集验证,该数据集包含天气播报场景下的连续手语视频与对应文本。

关键技术方法

  1. LSH-聚类模块:通过哈希函数将高维词向量映射到低维空间,基于汉明距离分桶后聚类,减少冗余计算;
  2. 多尺度gloss特征提取:采用3种不同尺度的卷积核对gloss序列进行局部特征捕获;
  3. 特征融合机制:将gloss特征与文本嵌入向量加权求和,增强原始文本的语义表示;
  4. 端到端训练:基于条件概率p(Y|X)优化序列生成,输出骨骼姿态序列Y=(y1
    ,...,yM
    )。

研究结果

  1. 长序列建模优化:LSH-聚类使模型处理100词以上文本时,注意力计算量降低37%,同时长距离依赖识别准确率提升21%;
  2. 多尺度特征有效性:3层卷积网络提取的gloss特征使关键手势(如疑问语气)的生成准确率提高15.6%;
  3. 综合性能对比:在PHOENIX14T测试集上,BLEU-4得分达32.7,较基线模型Saunders et al. (2020c)提升4.2分;用户评估显示生成手势的自然度评分提高19%。

结论与意义
该研究首次将LSH-聚类算法引入SLP领域,通过向量聚合和局部特征增强,解决了长序列处理与语义流失的核心问题。其意义在于:

  1. 技术层面:为端到端手语生成提供了可扩展的序列建模框架,LSH分桶策略可迁移至其他时序生成任务;
  2. 社会价值:生成的流畅手势序列能更好满足听障人群的沟通需求,推动数字包容性发展;
  3. 方法论创新:多尺度gloss特征与文本融合机制,为跨模态语义对齐研究提供新思路。未来可探索动态哈希函数以适应不同手语方言的语法特性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号