针对资源匮乏语言的机器翻译的自动资源扩充:EnIndic语料库
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Automatic Resource Augmentation for Machine Translation in Low Resource Language: EnIndic Corpus
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
Hindi-English平行语料库构建研究,基于印度总统及副总统演讲的可比语料库,采用句长与词对齐模型进行句对齐,结合IBM模型1相似度评分过滤低质量对齐句,最终形成含165万句对的EnIndic语料库,提供高质量机器翻译训练数据。
摘要
平行语料库是机器翻译的核心要素,用于训练统计机器翻译(SMT)和神经机器翻译(NMT)系统。目前,高质量的印地语-英语平行语料库较为匮乏。虽然对于特定语言对而言,相对容易找到可比较的语料库,但这些语料库无法直接应用于SMT或NMT系统中。因此,我们通过处理这些可比较的语料库来生成新的平行语料库。具体方法是从这些语料库中提取相互对应的句子(即翻译结果),并利用句子长度及词翻译模型来匹配这些句子对。随后,通过基于IBM模型1翻译概率的相似度评分,筛选出翻译质量较差的句子对。我们将该算法应用于从印度总统和副总统演讲中爬取的可比较语料库,并从中提取出平行语料库。最终得到的平行语料库中,句子对的对齐质量较高(f分数为96.338%)。为进一步提高语料库的质量,我们手动筛选掉了部分错误的句子对。最后,我们从多个来源收集了大量句子,构建了包含1,656,207对英印双语句子(涵盖多个领域)的EnIndic语料库。该语料库已发布在以下地址:https://github.com/debajyoty/EnIndic.git,源代码可查看于:https://github.com/debajyoty/EnIndicSourceCode.git。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号