CantonMT:研究粤英神经机器翻译中的回译机制与模型切换策略
《ACM Transactions on Asian and Low-Resource Language Information Processing》:CantonMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
本文针对粤语与英语的低资源翻译问题,提出基于NLLB-mBART的模型优化方案,通过构建新平行语料库(含网络爬取的单语数据预处理)和引入模型切换机制,在自动评分(SacreBLEU 16.8)和人工评估(HOPES框架)中均优于Bing/Baidu等商业翻译工具,并开发了开源Web应用供模型对比测试。
摘要
本文研究了从粤语到英语(以及反向)的机器翻译模型的开发与评估过程,提出了一种解决资源匮乏语言翻译问题的新方法。尽管基于Transformer架构的神经机器翻译(NMT)模型近期取得了显著进步,但由于缺乏相关资源,拥有超过8000万母语使用者的粤语仍缺乏先进的商业翻译模型。本研究的主要目标是开发一个能够有效将粤语翻译成英语的模型,并将其与现有的商业模型进行对比评估。为此,通过整合在线上的各种语料库并进行预处理和清洗,构建了一个新的平行语料库;同时通过网页抓取方式收集了单语粤语数据集,以辅助合成平行语料库的生成。在数据收集完成后,采用了多种方法进行模型训练,包括模型微调、回译和模型切换等。翻译质量的评估采用了多种指标,包括基于词典的指标(SacreBLEU和hLEPOR)以及基于嵌入空间的指标(COMET和BERTscore)。根据自动评估结果,选取了最佳模型,并通过新的用户评估框架HOPES与两大商业翻译工具(Bing和Baidu Translators)进行了对比。本研究提出的最佳模型NLLB-mBART结合了模型切换机制,在自动评估中取得了与最先进商业模型相当甚至更优异的成绩(在我们的测试集上,SacreBLEU得分为16.8)。此外,还开发了一个开源的网页应用程序,用户可以利用该程序在粤语和英语之间进行翻译,并可以对比本研究中的各种训练模型。CantonMT的代码托管地址为:https://github.com/kenrickkung/CantoneseTranslation
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号