CantonMT:研究粤英神经机器翻译中的回译机制与模型切换策略

《ACM Transactions on Asian and Low-Resource Language Information Processing》:CantonMT: Investigating Back-Translation and Model-Switch Mechanisms for Cantonese-English Neural Machine Translation

【字体: 时间:2025年11月08日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  本文针对粤语与英语的低资源翻译问题,提出基于NLLB-mBART的模型优化方案,通过构建新平行语料库(含网络爬取的单语数据预处理)和引入模型切换机制,在自动评分(SacreBLEU 16.8)和人工评估(HOPES框架)中均优于Bing/Baidu等商业翻译工具,并开发了开源Web应用供模型对比测试。

  

摘要

本文研究了从粤语到英语(以及反向)的机器翻译模型的开发与评估过程,提出了一种解决资源匮乏语言翻译问题的新方法。尽管基于Transformer架构的神经机器翻译(NMT)模型近期取得了显著进步,但由于缺乏相关资源,拥有超过8000万母语使用者的粤语仍缺乏先进的商业翻译模型。本研究的主要目标是开发一个能够有效将粤语翻译成英语的模型,并将其与现有的商业模型进行对比评估。为此,通过整合在线上的各种语料库并进行预处理和清洗,构建了一个新的平行语料库;同时通过网页抓取方式收集了单语粤语数据集,以辅助合成平行语料库的生成。在数据收集完成后,采用了多种方法进行模型训练,包括模型微调、回译和模型切换等。翻译质量的评估采用了多种指标,包括基于词典的指标(SacreBLEU和hLEPOR)以及基于嵌入空间的指标(COMET和BERTscore)。根据自动评估结果,选取了最佳模型,并通过新的用户评估框架HOPES与两大商业翻译工具(Bing和Baidu Translators)进行了对比。本研究提出的最佳模型NLLB-mBART结合了模型切换机制,在自动评估中取得了与最先进商业模型相当甚至更优异的成绩(在我们的测试集上,SacreBLEU得分为16.8)。此外,还开发了一个开源的网页应用程序,用户可以利用该程序在粤语和英语之间进行翻译,并可以对比本研究中的各种训练模型。CantonMT的代码托管地址为:https://github.com/kenrickkung/CantoneseTranslation
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号