西班牙语至墨西哥手语(MSL)语料库构建及神经机器翻译(NMT)模型验证研究

【字体: 时间:2025年04月27日 来源:Scientific Data 5.8

编辑推荐:

  为解决低资源手语(LSM)缺乏标准化语料库的问题,Tecnologico de Monterrey的研究团队开发了包含3000对西班牙语(SPA)-墨西哥手语(MSL)标注语料库,通过微调Helsinki-NLP和BARTO预训练模型,实现BLEU评分达94.23的翻译性能,为听障人群沟通技术提供重要数据基础。

  

在语言技术领域,低资源语言(LRL)的机器翻译始终面临数据匮乏的挑战。墨西哥手语(MSL)作为典型的LRL,长期缺乏标准化书写系统和电子资源,导致听障群体与社会主流存在沟通壁垒。尽管已有研究尝试通过美国手语(ASL)或德国手语(DGS)的语料库推进技术发展,但MSL特有的语法结构(如主语-宾语-动词(SOV)顺序)和地域性特征使其需要专属解决方案。

为突破这一瓶颈,蒙特雷理工学院的研究团队Vania Lara-Ortiz、Rita Q. Fuentes-Aguilar和Isaac Chairez开发了首个大规模SPA-MSL平行语料库。该研究创新性地结合MSL语法书籍和专业译员验证,构建了3000对严格遵循西班牙皇家学院(RAE)语法规范的句子,覆盖问候、天气、情感等日常场景,并系统标注了性别、复数、时间状语等7类语法结构特征。例如,西班牙语句子"La ni?a es sorda"(女孩是聋的)在MSL中被转写为"nino mujer sorda",通过融合"ni?o+mujer"表示性别特征。

研究采用两大关键技术:一是基于Helsinki-NLP的opus-mt-es-es模型(M1)和SPA预训练的BARTO模型(M2)进行迁移学习;二是引入TF-IDF向量化和Jaccard相似度(平均0.35)评估语料质量。实验设计包含80%-20%的数据划分,通过动态填充和注意力掩码处理变长序列,使用Adam优化器(β1=0.9, β2=0.999)进行20轮训练。

研究结果部分显示:

  1. 数据记录:语料库中MSL句子中位数长度比SPA短1个词(3 vs 4),且省略了84.85%的助动词(AUX)和68.83%的限定词(DET)。
  2. 技术验证:M2模型在测试集达到85.41 BLEU和6.64 TER(翻译编辑率),显著优于M1的83.23 BLEU。对于含隐式主语的句子如"Vivo en México",M2能正确输出"México yo vivir",而M1错误生成"Mexico vivo vivir"。
  3. 语法适应性:模型成功学习了MSL特有结构,如时间状语前置("Lunes a Viernes amigo mio universidad ir"对应原文"Mi amigo va a la universidad de Lunes a Viernes")。

该研究的核心价值在于:首次建立了符合MSL语法规范的标准化语料库,验证了跨语言迁移学习在极低资源场景的可行性。通过公开数据集和模型(Hugging Face平台可获取),为后续开发MSL翻译APP、教育工具提供了基础。未来研究可结合视觉-手势多模态数据,进一步提升复杂句式的翻译准确率。论文发表于《Scientific Data》期刊,标志着手语计算技术向包容性发展迈出关键一步。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号