评估维吾尔语文学翻译:ChatGPT、Google Translate和Bing Translator的比较研究

《PLOS One》:Evaluating Uighur literary translation: A comparative study of ChatGPT, Google Translate, and Bing Translator

【字体: 时间:2025年10月24日 来源:PLOS One 2.6

编辑推荐:

  维吾尔文学翻译质量评估与ChatGPT对比研究:通过BLEU、ROUGE、METEOR和BERT语义相似性等自动指标及专家评分,比较ChatGPT(含两种提示策略)、Google Translate和Bing Translator的翻译效果。研究发现ChatGPT在语义准确性和文化适应性方面显著优于NMT系统,尤其是简洁指令提示下BLEU达0.0333,ROUGE-N最高0.4828,且语法错误最少。Bing Translator拼写错误达23.9次/章,Google Translate表现稳定但略逊。专家评分显示ChatGPT在 fidelity(4.65/5)和 fluency(4.55/5)最优,Bing在 machine translation style(4.6/5)最突出。研究强调提示工程对提升LLM翻译质量的关键作用,并指出Bing在低资源语言翻译中的系统性缺陷

  本研究对三种机器翻译工具——ChatGPT(两种不同提示策略)、Google Translate 和 Bing Translator——在将维吾尔语文学作品《 Kutadgu Bilig 》(智慧之书)翻译成英语时的表现进行了比较分析。研究采用了自动评估指标(BLEU、ROUGE-N/L、METEOR 和基于 BERT 的语义相似度)、自动化错误统计(语法、拼写、风格)以及专家评分等多维度的评估方法,以全面衡量翻译质量。同时,还通过定性分析探讨了在文化敏感性文本中的翻译效果,以揭示不同系统在处理文学文本时的成功与失败案例。研究结果显示,ChatGPT 在语义准确性、流畅性和文化适配性方面普遍优于神经机器翻译(NMT)系统。Bing Translator 产生的错误数量最多,尤其是在拼写错误方面,而 Google Translate 表现出相对稳定但中等的性能。统计检验和专家评估支持了这些趋势,而案例分析则揭示了 NMT 系统在翻译过程中常常因极性反转和语义偏移而导致原意的扭曲。这些发现强调了提示工程在提升基于生成式人工智能(GenAI)的文学翻译中的关键作用,同时认识到 GenAI 的适应性与 NMT 的稳定性之间的互补优势。未来的研究应扩展语言和系统的覆盖范围,并探讨人类后期编辑在提升翻译质量中的作用。

文学翻译在许多方面与日常文本翻译不同,尤其是在处理语言中蕴含的文化微妙性与隐喻表达时。维吾尔语作为一种具有丰富文化背景和复杂修辞结构的语言,其文学作品往往包含多层次的含义和独特的风格特征,这使得机器翻译在处理这类文本时面临诸多挑战。传统机器翻译工具通常依赖于大量双语语料库训练而成,采用编码器-解码器结构进行翻译,尽管它们在一般文本翻译中表现良好,但在处理文学作品时,往往难以准确传达其深层含义和文化内涵。这种局限性在低资源语言的翻译中尤为明显,因为这些语言缺乏足够的平行语料库和标准化的书写系统,导致翻译质量受限。此外,文学翻译还涉及对语言风格、修辞手法和文化背景的精准把握,而这些元素往往需要依赖于翻译者的专业知识和经验。

为了克服这些挑战,研究者们提出了一系列改进策略,包括数据增强、多语言迁移学习以及语义词替换等方法。这些方法在一定程度上提升了低资源语言机器翻译的表现,但仍然无法完全满足文学翻译的复杂需求。例如,Jin 研究团队通过结合语义词替换和神经语法校正,显著提高了双语语料库的丰富性,从而提升了 BLEU 分数。而 Deng 和 Wang 则利用源语言的句法结构和预训练策略,改善了中泰翻译的质量。这些研究揭示了通过语言和数据驱动的方法可以显著提升低资源语言的翻译效果,但同时也指出,机器翻译在保留语义和情感特征方面仍存在局限。

文学翻译的评估不仅关注语言的准确性,还涉及文本的可读性和文化适配性。许多学者认为,机器翻译在实现语言准确性的同时,往往牺牲了文本的可读性,尤其是在文学作品中,风格和语境的适配对于翻译质量至关重要。Lim 等人通过分析不同文本层面的准确性与流畅性之间的关系,发现两者之间存在复杂的权衡。在文学翻译中,过于忠实于原文可能导致译文生硬,而过度追求流畅性则可能削弱文本的文化和思想内涵。这种现象被称为 Simpson’s paradox,即在整体数据层面可能存在正相关,但在具体段落层面却存在权衡。因此,文学翻译的评估需要综合考虑准确性、流畅性、可读性和文化适配性等多个维度。

此外,机器翻译在处理具有文化特殊性的文本时,往往会面临更大的挑战。例如,Obeidat 和 Jaradat 分析了 AI 翻译工具对 Ghassan Kanafani 短篇小说《Until We Return》的翻译质量,发现 Google Translate 和 ChatGPT 都存在一定程度的语义扭曲,包括理性化、内容贫乏和节奏破坏等现象。这些错误不仅影响了文本的可读性,还可能削弱其文化共鸣和政治力量。研究指出,尽管 AI 工具在处理具有文化敏感性的文本方面可能提供一定的帮助,但人类翻译者在保留其意识形态深度和文化真实性方面仍不可替代。

在机器翻译工具的选择上,Google Translate 和 Bing Translator 是基于神经网络的翻译系统,它们依赖于大规模的双语语料库训练,具有相对稳定的输出。然而,这些工具在处理低资源语言和风格复杂的文学文本时,仍存在一定的局限性。相比之下,ChatGPT 是一种生成式人工智能模型,它不仅仅用于翻译,还能够执行多种自然语言任务。由于其基于概率推理的机制,ChatGPT 的翻译质量高度依赖于提示策略的设计。通过优化提示,可以引导模型更好地理解文本的语境和风格,从而提升翻译的准确性和文化适配性。例如,He 的研究表明,使用“翻译者角色”提示可以显著提高翻译的自然度,而 Yamada 则通过将 ISO 17100 的翻译规范融入提示中,进一步提升了 ChatGPT 在处理隐喻和文化引用方面的表现。

在评估翻译质量时,研究采用了一系列自动评估指标,包括 BLEU、ROUGE-N/L、METEOR 和基于 BERT 的语义相似度。这些指标能够从不同角度衡量翻译的准确性和流畅性,其中 BLEU 通过计算 n-gram 匹配度来评估翻译质量,而 ROUGE 则强调内容覆盖度,通过测量翻译文本与参考文本之间的重合度来评估效果。METEOR 在 BLEU 和 ROUGE 的基础上引入了语义匹配机制,能够更灵活地评估翻译的语义等价性。基于 BERT 的语义相似度则能够捕捉翻译文本与参考文本之间的深层语义关系,从而更准确地衡量翻译的语义保真度。这些指标的综合应用为翻译质量的评估提供了多维度的视角,有助于更全面地理解不同翻译工具的表现。

除了自动评估,研究还引入了专家评分机制,以增强评估结果的可靠性。两位专业翻译者分别对翻译结果进行了评分,评分维度包括忠实度、流畅度、文化忠实度与风格,以及机器翻译风格。通过使用李克特五点量表,研究者能够更直观地衡量翻译的主观质量。统计结果显示,ChatGPT 在忠实度、流畅度和文化忠实度方面得分最高,而 Bing Translator 在机器翻译风格方面得分最高,这表明其输出更接近机器生成的语言特征。这种评估方法不仅提供了量化数据,还通过专家的主观判断,增强了对翻译质量的全面理解。

研究还分析了不同翻译工具在翻译过程中产生的错误类型,包括语法、拼写和风格方面的错误。通过使用 LanguageTool 这一自动语法检查工具,研究者能够识别出翻译文本中的问题。分析结果显示,Bing Translator 的错误数量显著高于其他工具,尤其是在拼写错误方面。例如,在第四章中,Bing Translator 的拼写错误高达 74 个,远高于 ChatGPT 和 Google Translate。相比之下,ChatGPT 在两种提示策略下都表现出较低的错误率,其中 Prompt 1 在语法错误方面略高于 Prompt 2,但在整体上仍然优于 Bing Translator。Google Translate 的错误率相对适中,但其表现不如 ChatGPT 稳定。

此外,研究还探讨了不同提示策略对 ChatGPT 翻译性能的影响。通过使用两种不同的提示方式,研究者发现,Prompt 1(直接指令)在统计检验中表现优于 Prompt 2(更具解释性的指令)。这表明,简洁而明确的提示对于引导 ChatGPT 生成高质量的翻译更为有效。例如,Prompt 1 能够帮助 ChatGPT 更准确地理解原文的语义和结构,从而提高翻译的忠实度和流畅度。而 Prompt 2 虽然在某些情况下能够激发 ChatGPT 的创造性,但其生成的翻译可能在准确性方面有所妥协。这种提示策略的差异进一步凸显了提示工程在提升生成式人工智能翻译质量中的重要性。

通过结合自动评估、统计分析和专家评分,研究为机器翻译在文学翻译中的应用提供了有价值的见解。尽管 ChatGPT 在某些方面表现出色,但其翻译结果仍存在一定的波动性,尤其是在语义准确性和文化适配性方面。这表明,生成式人工智能在处理文学文本时,虽然具有较高的灵活性,但也需要经过精心设计的提示才能达到最佳效果。相比之下,NMT 系统虽然在稳定性方面表现更好,但在处理文化敏感性和风格复杂性时仍存在不足。

此外,研究还通过具体的翻译案例揭示了机器翻译在文学文本中的局限性。例如,在第四章的某一段落中,原句“???? ?????? ???”被 Google Translate 和 Bing Translator 翻译为“他说,‘这是相反的’”,这不仅导致了语义的扭曲,还引入了不恰当的口语化表达,改变了原文的警示性语气。而 ChatGPT 在两种提示策略下均能够更好地保留原文的语义和风格,其中 Prompt 2 还能够生成更具文学性的翻译。这些案例表明,机器翻译在处理文学文本时,不仅需要关注语言层面的准确性,还需要考虑文化语境和修辞手法的保留。

研究的局限性主要体现在样本规模较小和工具选择的局限性上。虽然选择了前十个章节进行评估,但增加更多的文本样本可能会提供更全面的分析结果。此外,研究仅限于三种机器翻译工具,未来可以扩展到更多系统,如 DeepL,以验证研究结论的普遍性。同时,错误分析主要集中在语法、拼写和风格三个方面,未来研究可以进一步探讨其他类型的错误,如句法结构和文化语境的误译。最后,研究未涉及后期编辑对翻译质量的影响,未来可以探讨人类编辑在优化机器翻译输出中的作用,尤其是在低资源语言和高文学价值文本的翻译中。

总体而言,本研究为机器翻译在文学翻译中的应用提供了新的视角。它不仅揭示了不同翻译工具在处理维吾尔语文学文本时的表现差异,还强调了提示工程在提升生成式人工智能翻译质量中的关键作用。尽管 NMT 系统在稳定性和可预测性方面具有优势,但 ChatGPT 的灵活性使其在适当提示下能够更好地适应文学文本的复杂性。这些发现对于研究人员和翻译者在使用 AI 工具进行文学翻译时具有重要的参考价值,同时也为未来的研究提供了方向,即通过优化提示策略、扩展工具选择和结合人类后期编辑,进一步提升机器翻译在文学领域的表现。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号