PhayaThaiBERT:通过未融合的借词来增强预训练的泰语模型

《ACM Transactions on Asian and Low-Resource Language Information Processing》:PhayaThaiBERT: Enhancing a Pretrained Thai Language Model with Unassimilated Loanwords

【字体: 时间:2025年11月07日 来源:ACM Transactions on Asian and Low-Resource Language Information Processing

编辑推荐:

  本文提出通过扩展WangchanBERTa的词汇量和预训练来改善其处理英文借词的能力,最终生成的PhayaThaiBERT在多项下游任务中表现优于原模型,验证了该方法的有效性。

  在现代自然语言处理(NLP)领域,预训练语言模型(Pre-trained Language Models, PLMs)已经成为一种标准工具,尤其在Transformer架构的推动下。这些模型通常通过在大量未标注文本上进行预训练,然后在特定任务的标注数据上进行微调,以达到优异的性能表现。PLMs的应用范围非常广泛,从简单的文本分类到复杂的多模态任务,如图像描述生成和语音识别等。对于某些语言而言,尤其是那些在文本中频繁出现外来词汇的语言,PLMs的性能往往受到词汇表覆盖范围的限制。例如,泰国语在实际使用中经常包含未经过拼写同化处理的英文外来词,这给传统的PLMs带来了挑战。

在泰国语处理方面,WangchanBERTa已经成为了事实上的标准模型。该模型基于RoBERTa架构,并采用SentencePiece的Unigram算法进行分词,专门针对泰国语的特殊性进行了优化,比如保留空格以避免分词错误,以及处理重复字符以适应口语化文本的表达习惯。然而,尽管WangchanBERTa在许多任务上表现出色,如拼写纠正、文本分类、作文质量评估和情感分析等,其在处理外来词汇时仍存在一定的局限性。这种局限性主要源于其分词器中缺乏足够的外来词汇,尤其是在处理英文外来词时,分词过程可能导致模型对这些词汇的理解能力不足。

为了克服这一问题,我们提出了一种新的训练流程,旨在提升针对包含未同化外来词语言的PLMs的性能。这一流程主要包括两个方面:一是对现有PLMs进行词汇扩展,二是使用包含未同化外来词的双语数据集进行进一步的预训练。我们选择WangchanBERTa作为基础模型,并通过从XLM-R的预训练分词器中转移词汇和对应的分词得分,扩展了其词汇表。此外,我们还添加了所有由Unicode联盟定义的emoji符号,这些符号在实际文本中非常常见,但由于其非组合性质,无需复杂的分词策略即可处理。

在词汇扩展之后,模型的词汇量从25,005增加到249,262,相应的模型参数数量也从106M增加到278M。这种扩展使得模型能够更准确地处理未同化外来词,例如将“Elizabeth”作为一个整体进行分词,而不是将其拆分为“e”、“li”、“za”、“be”和“th”等部分。这不仅提高了模型的分词效率,也增强了其对这些词汇的理解能力。

在预训练阶段,我们采用了与WangchanBERTa相似的策略,即在子词层面进行掩码语言模型(Masked Language Modeling, MLM)任务。我们随机掩码15%的文本中的词汇,并使用特殊标记“”来替换这些词汇。同时,我们也会随机选择一个词汇进行替换,或保持原样,以确保模型在训练过程中能够学习到不同的模式。通过这种方式,模型在处理各种语言任务时,能够更好地捕捉词汇之间的关系。

为了进一步优化模型的训练过程,我们采用了“判别式微调”和“逐步解冻”两种技术。判别式微调意味着我们为模型的不同层设置了不同的学习率,其中新增词汇的嵌入层具有较高的学习率,而原有词汇的嵌入层则具有较低的学习率。这样做的目的是确保新增词汇能够快速适应模型,同时避免对原有词汇的干扰。逐步解冻则意味着在训练初期,我们仅对新增词汇的嵌入层进行微调,而对其他层保持冻结状态。随着训练的进行,我们逐步解冻其他层,以确保模型在整体上能够稳定地学习。

在实验设置方面,我们使用了多种下游任务和数据集进行评估,包括情感分析、文本分类、命名实体识别(NER)和词性标注(POS)等。这些数据集大多来源于WangchanBERTa的研究,以确保比较的公平性。在这些任务中,我们使用了微平均F1分数和宏平均F1分数作为评估指标,以全面衡量模型的性能。此外,我们还关注了模型在处理未同化外来词时的表现,通过计算输入文本中未同化外来词的比例和模型性能的提升幅度,来评估词汇扩展的效果。

实验结果表明,PhayaThaiBERT在多个任务中优于WangchanBERTa,尤其是在涉及大量未同化外来词的数据集上。例如,在包含大量英文评论的Yelp Review Full数据集上,PhayaThaiBERT的性能提升显著,这可能是因为XLM-R在英文数据上的训练使得其对英文词汇的理解更为准确。而在其他任务中,PhayaThaiBERT也展示了其在处理未同化外来词时的优势,尤其是在命名实体识别任务中,其性能提升幅度较大。

然而,PhayaThaiBERT的模型规模显著增大,这可能导致更高的计算资源需求。因此,我们也在研究如何通过模型蒸馏或其他技术来减小模型的大小,以使其在实际应用中更加高效。此外,我们的训练流程虽然在提升模型性能方面取得了成功,但仍存在一些主观决策和优化空间,未来的研究可能会进一步探索更优的训练策略和超参数设置。

总的来说,我们的研究展示了通过扩展词汇和使用包含未同化外来词的训练数据,可以有效提升PLMs在处理多语言混合文本时的性能。PhayaThaiBERT的发布不仅为泰国语的NLP任务提供了新的工具,也为其他具有类似语言特性的语言提供了借鉴。随着技术的不断发展,未来可能会有更多针对多语言混合文本的优化方法出现,从而进一步推动NLP领域的发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号