
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于扩散模型的连续手语生成式识别:一种免对齐跨模态语义重构新范式
【字体: 大 中 小 】 时间:2025年06月16日 来源:Pattern Recognition 7.5
编辑推荐:
针对连续手语识别(CSLR)中弱监督对齐导致的插入/删除错误问题,西安研究人员创新性地将CSLR重构为视频-文本生成任务,提出基于扩散模型(DDM)的生成框架。通过挖掘手语视频与gloss序列的语义一致性,结合对比学习增强特征表示,在PHOENIX-2014等数据集上实现SOTA性能,为跨模态识别提供新范式。
在聋哑人与健听人群的沟通场景中,连续手语识别(Continuous Sign Language Recognition, CSLR)技术扮演着关键角色。然而传统CSLR方法面临两大核心挑战:一是依赖视频帧与gloss(手语词标注)的跨模态对齐,但弱监督条件下这种对齐往往存在误差;二是手语动作间的过渡帧会产生语义模糊特征,导致识别错误。这些问题使得现有方法在PHOENIX-2014等基准数据集上的词错误率居高不下。
西安的研究团队在《Pattern Recognition》发表的研究中,提出了颠覆性的解决方案——将CSLR重新定义为视频到文本的生成任务。研究人员采用去噪扩散模型(Denoising Diffusion Model, DDM)构建生成框架,通过特征空间的迭代去噪过程直接生成gloss序列,完全规避了传统对齐环节。关键技术包括:1) 使用ResNet-34和mBART分别编码视觉与文本特征;2) 设计基于对比学习的gloss级特征增强策略;3) 采用DiT-S架构预测噪声并结合DPM采样器。实验涉及PHOENIX-2014、PHOENIX-2014T和CSL-Daily三个主流数据集。
Diffusion denoising detail
研究团队创新地在特征空间实施去噪过程:将视频特征V∈RN×D
作为条件输入,通过多步噪声预测直接生成gloss特征G′∈RN′×D
。这种方法避免了像素级处理的计算负担,同时保留了跨模态语义关联。
Experiment setup
两阶段训练策略显著提升性能:第一阶段仅训练特征编码网络,第二阶段引入4层Transformer解码器。这种设计使模型在PHOENIX-2014测试集上达到16.7%的词错误率,较传统对齐方法降低23%。
Discussion
与依赖动态时间规整(DTW)或注意力机制的方法相比,该生成式框架有效解决了插入/删除错误问题。定量分析显示,过渡帧导致的语义模糊特征通过对比学习策略得到显著改善,正样本对相似度提升41%。
Conclusion
这项研究开创性地将CSLR转化为生成任务,其重要意义体现在三方面:1) 首次验证DDM在视频-文本生成场景的适用性;2) 提出的对比学习策略为跨模态特征增强提供新思路;3) 在保持模型轻量化(仅需单块RTX 4090)的同时实现SOTA性能。该成果不仅推动了CSLR技术的发展,更为视频理解、医疗辅助沟通等应用场景提供了可扩展的解决方案。
生物通微信公众号
知名企业招聘