基于检索增强的手语翻译
《ACM Transactions on Multimedia Computing, Communications, and Applications》:Retrieval-Augmented Sign Language Translation
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Multimedia Computing, Communications, and Applications
编辑推荐:
提出基于跨模态查询扩展和注意力机制的手语翻译框架RASLT,通过检索手语数据库中的文本描述增强输入信号,结合增强对齐损失优化模态对齐,实验验证有效提升翻译质量。
摘要
在这项工作中,我们提出了一个名为“检索增强型手语翻译”(RASLT)的框架。由于人类翻译者在能够访问经过专家校对的类似翻译样本时能够提供更准确的答案,因此普遍认为类似的参考资料对翻译过程是有益的。为了在现有的手语翻译方法基础上增加额外的参考资料,我们的RASLT利用了一种跨模态查询扩展机制来增强现有手语翻译系统的输入。从技术上讲,RASLT分为两个阶段执行手语翻译:首先是视频检索,然后是文本生成。视频检索器会根据手语视频之间的相似性从手语数据库中搜索额外的文本描述;随后,检索增强型翻译器将这些检索到的文本描述作为额外线索来生成最终翻译结果,同时利用注意力机制来增强输入手语视频的语义表示。此外,我们还提出了“增强对损失”(augmented-pair loss)机制,以鼓励检索增强型翻译器探索跨模态关联性并缩小模态间的差异。我们的框架可以方便地与不同的手语翻译系统结合使用,以在可接受的开销范围内提升它们的性能。在公开基准测试中的大量实验验证了该框架的有效性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号