一种结合混合词法和句子对齐方法的无监督多语言机器翻译技术,该方法利用预训练的跨语言编码器实现

《ACM Transactions on Asian and Low-Resource Language Information Processing》:A Hybrid Word and Sentence Alignment Approach for Unsupervised Multilingual Machine Translation Using Pre-Trained Cross-Lingual Encoder

【字体: 时间:2026年02月16日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  针对低资源语言多语言神经机器翻译的平行语料不足问题,提出无监督框架。利用XLM-R预训练模型,结合双语词典生成伪平行语料,采用VecMap与FastText嵌入处理OOV和形态变化,并通过对抗对比学习(ACL)与硬负采样(HNM)优化句级对齐,显著提升翻译质量,平均BLEU提高1.2(双语)和0.9(多语),并在零样本及四种低资源印地语中验证有效性。

  

摘要

摘要

缺乏平行语料库仍然是多语言神经机器翻译(MNMT)面临的挑战,尤其是对于资源匮乏的语言。本文提出了一种无监督框架,该框架利用预训练的跨语言编码器(XLM-R)以无监督的方式工作,并通过单语语料库和双语词典生成高质量的翻译结果。所提出的方法通过结合双语词典的逐词翻译和基于掩码语言模型(MLM)的上下文细化来构建伪平行语料库。为了提高对齐质量,我们提出了一种双层表示策略:(1)词级对齐,结合了 VecMap 和 FastText 嵌入来处理词汇表外(OOV)词汇并捕捉形态变化;(2)句子级对齐,使用带有硬负样本挖掘(HNM)的对抗性对比学习(ACL)来构建语义上稳健且具有区分性的句子嵌入。在 FLORES-101 数据集上的实验结果表明,所提出的模型优于现有的最先进模型,在双语环境下的平均 BLEU 分数为 +1.2,在多语言环境下的平均 BLEU 分数为 +0.9。此外,该模型还在 4 种资源匮乏的印度语言(如印地语、乌尔都语、泰卢固语和孟加拉语)上进行了评估,在双语和多语言环境下的平均得分均超过了最先进模型,提高了 +0.7。最后,在零样本和少样本环境下的评估证实了该方法的稳健性和泛化能力,证明了在不使用平行语料库的情况下实现多语言翻译的有效性。

AI 摘要

AI 生成的摘要(实验结果)

此摘要是由自动化工具生成的,并非由文章作者编写或审核。它旨在帮助读者发现研究内容、评估其相关性,并协助来自相关研究领域的读者理解本文。它是对作者提供的摘要的补充,作者提供的摘要仍是文章的官方摘要。完整文章才是权威版本。点击此处了解更多

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

AI 生成的摘要

该摘要由基于已发表文章文本的自动化系统生成。

生成日期:2026 年 2 月 12 日。

本文探讨了多语言神经机器翻译(MNMT)中的挑战,特别是对于缺乏大型平行语料库的资源匮乏语言。它提出了一种无监督框架,使用预训练的跨语言编码器(尤其是 XLM-R)来生成用于训练的伪平行语料库,而无需依赖直接的平行句子对。该方法首先使用双语词典逐词翻译目标语言的单语句子。未翻译或缺失的单词会被标记为掩码,然后通过掩码语言模型(MLM)进行预测,以提高语法和上下文的准确性。这确保了更流畅、更自然的伪源句子。

一个关键创新是混合词对齐技术,它将用于跨语言对齐词嵌入的 VecMap 与 FastText 子词嵌入相结合。这种组合有助于克服传统词级映射的局限性,更好地处理形态变体和词汇表外词汇,这对于形态丰富且资源匮乏的语言尤为重要。MLM 对掩码词的预测通过这些对齐后的嵌入进行验证和优化,从而确保语义和语言的一致性。

在句子层面,该方法结合了对抗性对比学习(ACL)和硬负样本挖掘(HNM)。ACL 在训练过程中对句子嵌入引入小的对抗性扰动,促使模型关注语义意义而非表面相似性。HNM 选择语义接近但错误的句子对作为具有挑战性的负样本,从而提高模型在不同语言之间更稳健地区分和对齐句子的能力。这种双层对齐通过改进词和句子的表示来提升整体翻译质量。

该框架使用预训练的 XLM-R 模型初始化编码器和解码器,并在带有双语词典的单语数据上进行训练。它在多种双语和多语言对上进行了广泛评估,包括资源匮乏的印度语言。结果表明,与最先进模型相比,该模型在 BLEU 分数上有一致的提升,证明了其在没有平行语料库情况下的有效性。该方法在零样本和少样本领域适应方面也表现出色,证实了其在不同领域和语言中的稳健性。

尽管取得了进展,但仍存在一些局限性,例如长句子的翻译质量较低,以及依赖于双语词典的覆盖范围。未来的工作包括分割长句子以更好地处理上下文,动态更新词典中的新嵌入,以及整合 GPT-3 或 GPT-4 等大型语言模型以增强缺失词的预测能力和领域适应性。还提出了指令调整和上下文学习等方法来进一步改进资源匮乏语言的翻译。

总体而言,这项研究提出了一个实用且灵活的无监督 MNMT 系统,该系统利用混合词对齐和句子对齐技术,在不需要平行训练数据的情况下实现了资源匮乏和多样化语言的翻译质量提升。

相关新闻
生物通微信公众号
微信
新浪微博

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号