针对大型语言模型的领域自适应机器翻译及合成反馈技术

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Asian and Low-Resource Language Information Processing》：Domain Adaptive Machine Translation with Synthetic Feedback for Large Language Models

【字体：大中小】 时间：2026年02月16日 来源：ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐：

　　领域特定机器翻译通过大语言模型的指令遵循能力和上下文学习提升效果，但面临专业反馈稀缺和细粒度领域特征不足的问题。本文提出构建包含原翻译及修订反馈的演示数据库，通过检索相似领域翻译实现迭代优化。实验表明该方法在英、中、葡三语五领域基准测试中显著优于直接指令翻译，并验证了检索方法、跨语言差异、层级统计分析和数据库规模的影响因素。

摘要

领域特定的机器翻译（MT）从大型语言模型（LLMs）中受益匪浅，因为这些模型具有强大的指令遵循能力和上下文学习（ICL）能力。适当的示范样本和反馈对于帮助LLMs在实际应用中改进翻译结果至关重要。然而，领域内样本的稀缺性和专业反馈的缺乏带来了实际限制。此外，当前的ICL范式除了提供平行翻译对之外，并没有提供细粒度的领域特征。为了解决这些问题，我们提出了一种流程，该流程从LLMs收集领域内的翻译结果，并生成类似人类的反馈以修订这些翻译。翻译结果及其对应的反馈被一起存储，以构建一个示范数据库，每个实例都与其原始的领域内翻译及其修订版本配对。在在线翻译过程中，可以检索到类似的领域内翻译作为修订示范。这一过程通过从示范中学习来指导LLMs迭代改进其输出。我们使用开源模型（如Llama3-8B-Instruct和Mistral-7B-Instruct-v0.3）在五个以英语、中文和葡萄牙语为中心的领域特定基准测试中评估了所提出的流程。结果表明，与直接翻译指令相比，该流程在定制领域内翻译和提高翻译性能方面非常有效。此外，我们从以下角度讨论了实验结果：1）不同上下文检索方法的有效性；2）不同领域和语言之间的观察到的差异；3）句子级别和单词级别的统计数据的定量分析；4）ICL检索数据库大小和解码参数的影响。

人工智能摘要

人工智能生成的摘要（实验结果）

此摘要是使用自动化工具生成的，未经文章作者撰写或审核。它旨在辅助发现、帮助读者评估相关性，并帮助来自相关研究领域的读者理解该工作。它旨在补充作者提供的摘要，后者仍然是论文的主要摘要。完整文章是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

人工智能生成的摘要不可用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号