西班牙语至墨西哥手语(MSL)语料库构建及神经机器翻译(NMT)模型验证研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年04月27日 来源：Scientific Data 5.8

编辑推荐：

　　为解决低资源手语(LSM)缺乏标准化语料库的问题，Tecnologico de Monterrey的研究团队开发了包含3000对西班牙语(SPA)-墨西哥手语(MSL)标注语料库，通过微调Helsinki-NLP和BARTO预训练模型，实现BLEU评分达94.23的翻译性能，为听障人群沟通技术提供重要数据基础。

在语言技术领域，低资源语言(LRL)的机器翻译始终面临数据匮乏的挑战。墨西哥手语(MSL)作为典型的LRL，长期缺乏标准化书写系统和电子资源，导致听障群体与社会主流存在沟通壁垒。尽管已有研究尝试通过美国手语(ASL)或德国手语(DGS)的语料库推进技术发展，但MSL特有的语法结构（如主语-宾语-动词(SOV)顺序）和地域性特征使其需要专属解决方案。

为突破这一瓶颈，蒙特雷理工学院的研究团队Vania Lara-Ortiz、Rita Q. Fuentes-Aguilar和Isaac Chairez开发了首个大规模SPA-MSL平行语料库。该研究创新性地结合MSL语法书籍和专业译员验证，构建了3000对严格遵循西班牙皇家学院(RAE)语法规范的句子，覆盖问候、天气、情感等日常场景，并系统标注了性别、复数、时间状语等7类语法结构特征。例如，西班牙语句子"La ni?a es sorda"（女孩是聋的）在MSL中被转写为"nino mujer sorda"，通过融合"ni?o+mujer"表示性别特征。

研究采用两大关键技术：一是基于Helsinki-NLP的opus-mt-es-es模型（M1）和SPA预训练的BARTO模型（M2）进行迁移学习；二是引入TF-IDF向量化和Jaccard相似度（平均0.35）评估语料质量。实验设计包含80%-20%的数据划分，通过动态填充和注意力掩码处理变长序列，使用Adam优化器（β₁=0.9, β₂=0.999）进行20轮训练。

研究结果部分显示：

数据记录：语料库中MSL句子中位数长度比SPA短1个词（3 vs 4），且省略了84.85%的助动词(AUX)和68.83%的限定词(DET)。
技术验证：M2模型在测试集达到85.41 BLEU和6.64 TER（翻译编辑率），显著优于M1的83.23 BLEU。对于含隐式主语的句子如"Vivo en México"，M2能正确输出"México yo vivir"，而M1错误生成"Mexico vivo vivir"。
语法适应性：模型成功学习了MSL特有结构，如时间状语前置（"Lunes a Viernes amigo mio universidad ir"对应原文"Mi amigo va a la universidad de Lunes a Viernes"）。

该研究的核心价值在于：首次建立了符合MSL语法规范的标准化语料库，验证了跨语言迁移学习在极低资源场景的可行性。通过公开数据集和模型（Hugging Face平台可获取），为后续开发MSL翻译APP、教育工具提供了基础。未来研究可结合视觉-手势多模态数据，进一步提升复杂句式的翻译准确率。论文发表于《Scientific Data》期刊，标志着手语计算技术向包容性发展迈出关键一步。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号