
-
生物通官微
陪你抓住生命科技
跳动的脉搏
西班牙语至墨西哥手语(MSL)语料库构建及神经机器翻译(NMT)模型验证研究
【字体: 大 中 小 】 时间:2025年04月27日 来源:Scientific Data 5.8
编辑推荐:
为解决低资源手语(LSM)缺乏标准化语料库的问题,Tecnologico de Monterrey的研究团队开发了包含3000对西班牙语(SPA)-墨西哥手语(MSL)标注语料库,通过微调Helsinki-NLP和BARTO预训练模型,实现BLEU评分达94.23的翻译性能,为听障人群沟通技术提供重要数据基础。
在语言技术领域,低资源语言(LRL)的机器翻译始终面临数据匮乏的挑战。墨西哥手语(MSL)作为典型的LRL,长期缺乏标准化书写系统和电子资源,导致听障群体与社会主流存在沟通壁垒。尽管已有研究尝试通过美国手语(ASL)或德国手语(DGS)的语料库推进技术发展,但MSL特有的语法结构(如主语-宾语-动词(SOV)顺序)和地域性特征使其需要专属解决方案。
为突破这一瓶颈,蒙特雷理工学院的研究团队Vania Lara-Ortiz、Rita Q. Fuentes-Aguilar和Isaac Chairez开发了首个大规模SPA-MSL平行语料库。该研究创新性地结合MSL语法书籍和专业译员验证,构建了3000对严格遵循西班牙皇家学院(RAE)语法规范的句子,覆盖问候、天气、情感等日常场景,并系统标注了性别、复数、时间状语等7类语法结构特征。例如,西班牙语句子"La ni?a es sorda"(女孩是聋的)在MSL中被转写为"nino mujer sorda",通过融合"ni?o+mujer"表示性别特征。
研究采用两大关键技术:一是基于Helsinki-NLP的opus-mt-es-es模型(M1)和SPA预训练的BARTO模型(M2)进行迁移学习;二是引入TF-IDF向量化和Jaccard相似度(平均0.35)评估语料质量。实验设计包含80%-20%的数据划分,通过动态填充和注意力掩码处理变长序列,使用Adam优化器(β1=0.9, β2=0.999)进行20轮训练。
研究结果部分显示:
该研究的核心价值在于:首次建立了符合MSL语法规范的标准化语料库,验证了跨语言迁移学习在极低资源场景的可行性。通过公开数据集和模型(Hugging Face平台可获取),为后续开发MSL翻译APP、教育工具提供了基础。未来研究可结合视觉-手势多模态数据,进一步提升复杂句式的翻译准确率。论文发表于《Scientific Data》期刊,标志着手语计算技术向包容性发展迈出关键一步。
生物通微信公众号
知名企业招聘