提升新闻分类效果：基于自适应选择性掩码技术的领域特定引导预训练方法

《Knowledge-Based Systems》：Enhancing News Classification: Domain-Specific Guided Pretraining Based on Adaptive Selective Masking

【字体：大中小】 时间：2026年02月14日 来源：Knowledge-Based Systems 7.6

编辑推荐：

　　新闻文本分类中，预训练语言模型（PLMs）面临任务特定性和标注数据不足的挑战。本文提出在标准预训练和微调间增加领域特定预训练阶段，采用适度规模无监督新闻数据帮助模型获取领域知识，并设计动态掩码关键术语的自适应选择性掩码机制。实验表明该方法在四个基准数据集上平均准确率提升4%，训练效率提高50%，同时具备强泛化能力。

乔丁|恒丁|王健|闫传贤|陶莉|南宇莉|陶芳|陈俊阳

中国昆明科技大学云南省人工智能重点实验室

摘要

随着自然语言处理技术的不断进步，预训练语言模型（PLMs）在各种任务中取得了令人印象深刻的结果。然而，在新闻文本分类领域，PLMs仍然面临诸如任务特异性有限和标注数据不足等挑战。为了解决这些问题，本文提出了一种改进的新闻分类框架，在标准的预训练和微调阶段之间引入了一个中间的、特定于领域的预训练阶段。该阶段使用了一个中等规模的、无监督的新闻数据集来帮助模型获取领域特定的知识。同时，还采用了一种自适应的选择性掩码机制，动态地掩盖关键术语，使模型能够更好地捕捉与任务相关的信息。此外，本文还提出了一种清理错误标记样本和重新加权训练过程的方法，进一步提高了分类性能。在四个基准数据集上的实验结果表明，与几种先进的基线模型相比，所提出的方法平均准确率提高了4.0%，训练效率提高了约50%。此外，在其他任务上的额外实验表明，该方法准确率超过了90%，显示出强大的泛化能力。

引言

文本分类[1]、[2]是自然语言处理（NLP）[3]中的一个基本任务，旨在为句子、查询、段落或整个文档[4]等文本单元分配预定义的标签或类别。它被广泛应用于问答系统[5]、垃圾邮件检测、情感分析[6]、新闻分类[7]、用户意图识别和内容审核等实际应用中。文本数据来源多样，包括网页内容[8]、电子邮件、社交媒体、支持票、保险索赔、用户评论和客户服务互动[9]。尽管文本中包含丰富的信息，但其非结构化的特性使得提取有意义的见解成为一个重大挑战。

文本分类方法可以分为手动注释[10]和自动注释[11]。手动注释虽然准确，但耗时且劳动密集；而自动注释利用机器学习模型[12]高效且经济地对文本进行分类，通常能够达到相当或更高的准确率。传统的机器学习通常包括两个步骤：特征提取和分类。常见的特征提取方法包括词袋模型（BoW）[13]、Word2Vec[14]和GloVe嵌入[15]、[16]。BoW基于词频生成向量，实现简单，但忽略了词序和上下文；其高维稀疏向量也增加了计算成本并降低了泛化能力。Word2Vec从局部上下文中捕获语义，而GloVe使用全局共现矩阵编码语义。然而，这两种方法产生的都是静态向量，无法适应多义性或不同任务，并且依赖于手动设计和训练，限制了高级特征的自动提取和跨任务适应性。

在分类步骤中，常用的传统算法包括决策树[17]、随机森林[18]、k近邻[19]、朴素贝叶斯[20]和支持向量机（SVMs）[21]。尽管这些算法在某些情况下表现良好，但它们通常严重依赖于领域知识[22]，并且在建模复杂模式或高级抽象方面的能力有限。相比之下，深度学习模型[23]可以自动学习特征并从大型数据集中捕捉复杂的关系。流行的深度学习架构包括卷积神经网络（CNNs）[24]、循环神经网络（RNNs）[25]和基于注意力的机制[26]。这些模型通过学习层次化特征表示并有效建模复杂的语义依赖关系，解决了传统方法的不足。

尽管基于深度学习的自动文本分类方法已成为主流，但它们仍然面临几个挑战。首先，它们通常需要大量的标注训练数据，并且通常针对特定数据集进行优化，导致泛化能力有限。其次，这些模型作为黑箱运行，使其内部机制难以解释。此外，深度学习模型在训练过程中需要大量的计算资源，这对计算能力有限的应用来说是一个障碍[27]。

近年来，预训练语言模型（PLMs）在广泛的NLP任务中取得了显著的成功。其中，来自变换器（BERT；[28]）的双向编码器表示表现出强大的性能，并成为最广泛使用的自编码PLMs之一[29]。通过在大规模无标签语料库上进行预训练，PLMs可以大大减少对标注数据的需求并提高任务适应性。

尽管BERT在自然语言理解（NLU）任务中取得了成功，但其在新闻文本分类中的潜力尚未得到充分探索[30]。与其他文本领域不同，新闻内容具有时间敏感性、动态变化和主题多样性。这些特点使得标准文本分类模型难以实现高性能。例如，新闻文章中的相同词汇根据时间或上下文因素可能传达不同的含义，给现有的PLMs带来了额外的挑战。然而，当前的研究对优化BERT用于新闻分类任务的关注有限。因此，本文的核心研究问题是：如何改进BERT的预训练策略和微调方法，以更好地捕捉新闻文章中的时间变化和语义细微差别，从而提高其在新闻文本分类中的准确率和效率？解决这个问题不仅提高了新闻分类系统的性能，也有助于NLP在时间敏感应用中的更广泛发展。

为了解决这些问题，本文基于BERT提出了两项创新来增强新闻文本处理。首先，在一般预训练阶段之后引入了一个中间的、特定于领域的预训练阶段。虽然BERT最初是在通用语料库上训练的，但新闻文章具有独特的语言特征；特定于领域的预训练使模型能够更有效地捕捉与任务相关的语义，提高其对新闻领域的理解。其次，本研究引入了一种自适应的选择性掩码策略。与传统的随机掩码不同，这种方法动态地选择和掩盖与任务相关的词汇，使模型能够更高效地学习领域特定知识，提高预训练的有效性和下游任务的性能。这种方法通过特定于任务的微调来改进BERT的理解，解决了语义稀疏性和上下文表示不足等问题。利用BERT的双向Transformer架构生成上下文敏感的词嵌入，所提出的方法克服了词袋模型（BoW）中的特征稀疏问题和传统嵌入（如Word2Vec和GloVe）的静态特性。因此，它显著提高了新闻文本分类的效率和准确性。实验结果验证了所提出的创新，显示出分类准确率和预训练效率的显著提升。

提高BERT在新闻文本分类中的性能具有重要的实际价值。一个优化后的模型可以大大提高自动化新闻内容处理的效率和分析能力，使新闻行业能够更快地响应实时信息需求。例如，更高效的新闻分类和过滤使媒体公司能够提高信息传递的及时性和准确性。此外，这项研究的结果不仅有利于新闻领域，还为其他文本分类任务提供了见解和方法论参考，从而推动了自然语言处理技术的更广泛发展和应用。本研究旨在满足实际需求，同时推动该领域的技术进步。本文的主要贡献如下：

(1) 我们提出了一个改进的分类框架，将通用预训练（GenePM）与特定于任务的预训练（TaskSPT）相结合。TaskSPT使用特定于领域的无监督数据进行自适应选择性掩码，并通过全连接层和Softmax生成最终的分类结果。

(2) 在微调过程中，对每一层应用不同的学习率以保留预训练的特征。Adam优化器结合热身和线性衰减策略，提高了收敛速度和训练稳定性。

(3) 我们识别并移除了下游监督学习任务中可能不正确的标签，并应用了重新加权和重新训练策略来提高标签质量和模型的整体鲁棒性。

本文的其余部分结构如下。第2节回顾了相关研究；第3节详细分析了所提出的改进预训练框架；第4节描述了清理监督数据中错误标签的过程；第5节概述了实验程序，并将我们的方法与基线模型的结果进行了比较；第6节总结了研究并提出了未来工作的方向。

部分片段

改进的预训练框架

在本节中，我们描述了改进的预训练框架，包括通用预训练阶段和特定于任务的预训练阶段、选择性掩码策略、优化器选择和学习率设置以防止灾难性遗忘，以及下游监督数据中标签错误的校正。我们将通用无监督数据表示为U_Gneral（16GB），领域内无监督数据表示为U_Domainl（10MB），下游监督数据表示为S_Task（1MB）。

通用预训练的总体架构

监督数据标签清理

基准数据集常用于评估机器学习技术，但大量的标签错误会严重影响模型评估，甚至导致误导性的结论。手动验证成本高昂且耗时，使得传统方法不适用于大规模数据集。因此，迫切需要一种高效且准确的自动化方法来识别和纠正标签错误。

为了解决这个问题，我们引入了Confident Learning（CL）算法

实验设置

我们在四个新闻文本分类任务上评估了我们的方法。除非另有说明，否则假设我们的方法是在清理后的四个新闻数据集上进行的评估。

结论和未来工作

本文提出了一种改进的预训练语言模型框架，在传统的预训练和微调之间引入了特定于领域的预训练阶段，并结合了自适应掩码策略，以提高新闻分类任务的性能。首先，在中等规模的新闻语料库上进行特定于领域的预训练，使模型能够提前获取相关知识。然后，自适应掩码策略根据任务动态调整被掩盖的标记

CRediT作者贡献声明

乔丁：写作——审稿与编辑、撰写原始草稿、可视化、验证、监督、软件、资源、方法论、形式分析、数据策划、概念化。恒丁：写作——审稿与编辑、监督、软件、形式分析、数据策划。王健：写作——审稿与编辑、可视化、验证、监督、调查、形式分析。闫传贤：监督、资源、项目管理、资金获取。陶莉：

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。

致谢

本工作得到了国家自然科学基金（62266028）和云南省科技厅重点项目（202301AS070047）的支持。

摘要

引言