基于级联计算图的多语言神经机器翻译模型TILSECC：提升低资源语言翻译性能的新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月26日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　针对多语言神经机器翻译(MNMT)中存在的翻译质量下降和语言干扰问题，研究人员提出TILSECC方法，通过级联计算图分组识别有效/无效节点，结合节点拆分与孪生技术，在TED2013/TED2020/BIBLE数据集上实现BLEU值最高提升23.7%，显著优于ChatGPT等大模型，为低资源语言翻译提供创新解决方案。

在人工智能时代，多语言神经机器翻译(Multilingual Neural Machine Translation, MNMT)已成为打破语言壁垒的核心技术。然而，当模型面对英语-法语等高资源语言时表现优异，却在处理低资源语言（平行语料<50万句）和极低资源语言（<10万句）时遭遇瓶颈——翻译质量骤降、语言间负迁移效应显著。传统解决方案如参数共享会引发语言干扰，而独立参数设计又无法利用语言间的正相关性。更棘手的是，现有模型需要海量数据支撑，且架构调整必须重新训练，导致像英语-伊博语这类极低资源语言几乎无法获得合格译文。

针对这一系列挑战，发表于《Expert Systems with Applications》的研究提出革命性方法TILSECC（Twinning Important Language-Specific Sub-nodes and an Effective Node using Cascaded Computational Graphs）。该方法创新性地构建级联计算图组，通过语义相似度分析实现语言对的智能分组，进而识别模型中的有效节点（具有最大语言距离梯度）和无效节点（最小梯度）。通过孪生有效节点、拆分无效节点为特定子节点，最终实现：1）通用知识的全局增强；2）语言特异性知识的精准优化。实验显示，在TED2013数据集上英语-波斯语翻译BLEU值提升23.7%，远超Google NMT等商业系统；对英语-伊博语的极低资源场景，即使面对32层深度的大模型Madlad400-3B，TILSECC仍保持2.58%的优势。

关键技术包括：1）基于Fairseq库构建参数共享的MNMT基础模型；2）通过验证数据生成级联计算图组；3）基于余弦相似度的节点有效性分析；4）动态节点拆分与孪生技术；5）使用TED2013/TED2020/BIBLE/OPUS-100等多语言数据集进行验证。

【研究结果】

基准系统对比：在英语-波斯语任务中，TILSECC的BLEU值较基线模型提升17.96（TED2013）、16.69（TED2020）和35.2（BIBLE），统计学显著性p≤0.05。
大语言模型挑战：全面超越ChatGPT、Bing GPT-4和GNMT，尤其在BIBLE数据集上BLEU差值达9.3。
极低资源验证：英语-伊博语翻译中，即使Semlin-MNMT等高资源优等生也出现性能崩塌，而TILSECC保持稳定。
架构灵活性：传统模型需重新训练适应架构变更，TILSECC通过动态节点调整实现单次训练终身适用。

【结论与意义】
该研究突破性地将计算图拓扑分析与节点操作相结合，首次实现：1）无需依赖语言谱系先验知识；2）单次训练适应持续架构演进；3）有效抑制非目标语言输出（负推理问题）。其OPUS-100上的卓越表现证实，该方法为7000种人类语言中95%的濒危语种保护提供技术可能。未来，通过扩展至语音、图像等多模态场景，或将成为数字文明保存的关键基础设施。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号