基于级联计算图的多语言神经机器翻译模型TILSECC:提升低资源语言翻译性能的新方法

【字体: 时间:2025年06月26日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对多语言神经机器翻译(MNMT)中存在的翻译质量下降和语言干扰问题,研究人员提出TILSECC方法,通过级联计算图分组识别有效/无效节点,结合节点拆分与孪生技术,在TED2013/TED2020/BIBLE数据集上实现BLEU值最高提升23.7%,显著优于ChatGPT等大模型,为低资源语言翻译提供创新解决方案。

  

在人工智能时代,多语言神经机器翻译(Multilingual Neural Machine Translation, MNMT)已成为打破语言壁垒的核心技术。然而,当模型面对英语-法语等高资源语言时表现优异,却在处理低资源语言(平行语料<50万句)和极低资源语言(<10万句)时遭遇瓶颈——翻译质量骤降、语言间负迁移效应显著。传统解决方案如参数共享会引发语言干扰,而独立参数设计又无法利用语言间的正相关性。更棘手的是,现有模型需要海量数据支撑,且架构调整必须重新训练,导致像英语-伊博语这类极低资源语言几乎无法获得合格译文。

针对这一系列挑战,发表于《Expert Systems with Applications》的研究提出革命性方法TILSECC(Twinning Important Language-Specific Sub-nodes and an Effective Node using Cascaded Computational Graphs)。该方法创新性地构建级联计算图组,通过语义相似度分析实现语言对的智能分组,进而识别模型中的有效节点(具有最大语言距离梯度)和无效节点(最小梯度)。通过孪生有效节点、拆分无效节点为特定子节点,最终实现:1)通用知识的全局增强;2)语言特异性知识的精准优化。实验显示,在TED2013数据集上英语-波斯语翻译BLEU值提升23.7%,远超Google NMT等商业系统;对英语-伊博语的极低资源场景,即使面对32层深度的大模型Madlad400-3B,TILSECC仍保持2.58%的优势。

关键技术包括:1)基于Fairseq库构建参数共享的MNMT基础模型;2)通过验证数据生成级联计算图组;3)基于余弦相似度的节点有效性分析;4)动态节点拆分与孪生技术;5)使用TED2013/TED2020/BIBLE/OPUS-100等多语言数据集进行验证。

【研究结果】

  1. 基准系统对比:在英语-波斯语任务中,TILSECC的BLEU值较基线模型提升17.96(TED2013)、16.69(TED2020)和35.2(BIBLE),统计学显著性p≤0.05。
  2. 大语言模型挑战:全面超越ChatGPT、Bing GPT-4和GNMT,尤其在BIBLE数据集上BLEU差值达9.3。
  3. 极低资源验证:英语-伊博语翻译中,即使Semlin-MNMT等高资源优等生也出现性能崩塌,而TILSECC保持稳定。
  4. 架构灵活性:传统模型需重新训练适应架构变更,TILSECC通过动态节点调整实现单次训练终身适用。

【结论与意义】
该研究突破性地将计算图拓扑分析与节点操作相结合,首次实现:1)无需依赖语言谱系先验知识;2)单次训练适应持续架构演进;3)有效抑制非目标语言输出(负推理问题)。其OPUS-100上的卓越表现证实,该方法为7000种人类语言中95%的濒危语种保护提供技术可能。未来,通过扩展至语音、图像等多模态场景,或将成为数字文明保存的关键基础设施。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号