
-
生物通官微
陪你抓住生命科技
跳动的脉搏
DiffSLT:基于扩散模型增强手语翻译多样性的创新框架
【字体: 大 中 小 】 时间:2025年06月16日 来源:Pattern Recognition Letters 3.9
编辑推荐:
为解决手语翻译(SLT)中因过度追求准确性导致输出单一化的问题,研究人员提出首个基于扩散模型的免标注框架DiffSLT,通过Guidance Fusion Module整合多级时空特征,结合伪标注技术(DiffSLT-P)缩小模态差距。实验证明该方法在PHOENIX14T和CSL-Daily数据集上实现SOTA性能,显著提升翻译多样性与准确性,为SLT的实际应用提供新范式。
手语作为聋人群体主要交流方式,其翻译技术长期面临模态鸿沟与数据稀缺的挑战。传统方法依赖专家标注的gloss(手语词注释),但精确标注成本高昂,且现有模型过度追求BLEU/ROUGE等指标,导致翻译结果机械单一。韩国国立研究基金会支持的研究团队发现,现有SLT模型在训练中会丧失语义多样性(见图2的t-SNE可视化),这严重限制了实际场景的适用性。
为解决这一难题,研究人员创新性地将扩散模型引入SLT领域,提出DiffSLT框架。该框架通过30步迭代的逆向去噪过程,将随机噪声转化为目标语句的潜在表征,同时设计Guidance Fusion Module(GFM)强化视频时空特征的融合。改进版DiffSLT-P额外引入视觉特征预测的伪gloss,有效缩小视觉-文本模态差距。
关键技术包括:1) 基于PHOENIX14T和CSL-Daily数据集的跨模态对比学习;2) 多级时空特征提取与GFM融合;3) 潜在扩散模型(LDM)的渐进式去噪策略;4) 伪gloss辅助的条件生成机制。
主要结果
讨论与展望
尽管DiffSLT单次推理耗时0.8秒(较传统模型高12倍),但其开创性地证明扩散模型在SLT领域的潜力。未来可通过知识蒸馏优化推理效率,结合大语言模型(LLM)增强上下文建模。该研究为突破手语翻译"单一输出困境"提供新思路,对促进聋健沟通平等具有重要社会意义。
生物通微信公众号
知名企业招聘