
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于局部敏感哈希聚类与多尺度特征提取的手语生成优化研究
【字体: 大 中 小 】 时间:2025年06月19日 来源:Speech Communication 2.4
编辑推荐:
针对长文本序列输入导致手语生成(SLP)模型效率低下、语义信息利用不足的问题,研究人员提出融合局部敏感哈希(LSH)-聚类算法与多尺度特征提取网络的新方法,通过聚合相似词向量和增强文本特征,显著提升连续手语姿态序列的生成准确性和流畅性。实验证明该方法在PHOENIX14T数据集上优于基线模型,为听障人群的数字交互提供了更高效的解决方案。
手语作为一种包含复杂语法结构的视觉语言,是听障群体与外界沟通的重要桥梁。然而,当前基于深度学习的自动手语生成(Sign Language Production, SLP)系统面临两大挑战:一是长文本输入导致模型计算效率低下,二是难以充分捕捉手语中细腻的非语言信息(如表情、肢体动态),生成的骨骼姿态序列往往流畅度不足,影响听障用户的理解体验。传统方法采用分阶段处理(如T2G→G2P),但信息损失严重;而端到端的T2P方法虽直接,却因注意力机制对长序列建模能力有限,难以兼顾效率与准确性。
为此,国内研究人员提出创新性解决方案,核心是通过局部敏感哈希(Locality Sensitive Hashing, LSH)聚类算法优化文本向量处理流程,结合多尺度卷积网络提取手语注释(gloss)的局部特征。研究团队在《Speech Communication》发表的论文中,采用Transformer架构为基础,首先对输入文本嵌入向量进行LSH分桶和聚类,将相似词向量自动聚合,显著减少注意力矩阵的计算量;同时设计多尺度特征提取模块,通过不同尺寸的卷积核捕获gloss的局部上下文特征,并与文本向量融合以增强语义表达。实验采用德国RWTH-PHOENIX-Weather 2014T(PHOENIX14T)数据集验证,该数据集包含天气播报场景下的连续手语视频与对应文本。
关键技术方法
研究结果
结论与意义
该研究首次将LSH-聚类算法引入SLP领域,通过向量聚合和局部特征增强,解决了长序列处理与语义流失的核心问题。其意义在于:
生物通微信公众号
知名企业招聘