
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于级联计算图的多语言神经机器翻译模型TILSECC:提升低资源语言翻译性能的新方法
【字体: 大 中 小 】 时间:2025年06月26日 来源:Expert Systems with Applications 7.5
编辑推荐:
针对多语言神经机器翻译(MNMT)中存在的翻译质量下降和语言干扰问题,研究人员提出TILSECC方法,通过级联计算图分组识别有效/无效节点,结合节点拆分与孪生技术,在TED2013/TED2020/BIBLE数据集上实现BLEU值最高提升23.7%,显著优于ChatGPT等大模型,为低资源语言翻译提供创新解决方案。
在人工智能时代,多语言神经机器翻译(Multilingual Neural Machine Translation, MNMT)已成为打破语言壁垒的核心技术。然而,当模型面对英语-法语等高资源语言时表现优异,却在处理低资源语言(平行语料<50万句)和极低资源语言(<10万句)时遭遇瓶颈——翻译质量骤降、语言间负迁移效应显著。传统解决方案如参数共享会引发语言干扰,而独立参数设计又无法利用语言间的正相关性。更棘手的是,现有模型需要海量数据支撑,且架构调整必须重新训练,导致像英语-伊博语这类极低资源语言几乎无法获得合格译文。
针对这一系列挑战,发表于《Expert Systems with Applications》的研究提出革命性方法TILSECC(Twinning Important Language-Specific Sub-nodes and an Effective Node using Cascaded Computational Graphs)。该方法创新性地构建级联计算图组,通过语义相似度分析实现语言对的智能分组,进而识别模型中的有效节点(具有最大语言距离梯度)和无效节点(最小梯度)。通过孪生有效节点、拆分无效节点为特定子节点,最终实现:1)通用知识的全局增强;2)语言特异性知识的精准优化。实验显示,在TED2013数据集上英语-波斯语翻译BLEU值提升23.7%,远超Google NMT等商业系统;对英语-伊博语的极低资源场景,即使面对32层深度的大模型Madlad400-3B,TILSECC仍保持2.58%的优势。
关键技术包括:1)基于Fairseq库构建参数共享的MNMT基础模型;2)通过验证数据生成级联计算图组;3)基于余弦相似度的节点有效性分析;4)动态节点拆分与孪生技术;5)使用TED2013/TED2020/BIBLE/OPUS-100等多语言数据集进行验证。
【研究结果】
【结论与意义】
该研究突破性地将计算图拓扑分析与节点操作相结合,首次实现:1)无需依赖语言谱系先验知识;2)单次训练适应持续架构演进;3)有效抑制非目标语言输出(负推理问题)。其OPUS-100上的卓越表现证实,该方法为7000种人类语言中95%的濒危语种保护提供技术可能。未来,通过扩展至语音、图像等多模态场景,或将成为数字文明保存的关键基础设施。
生物通微信公众号
知名企业招聘