文本分类[1]、[2]是自然语言处理(NLP)[3]中的一个基本任务,旨在为句子、查询、段落或整个文档[4]等文本单元分配预定义的标签或类别。它被广泛应用于问答系统[5]、垃圾邮件检测、情感分析[6]、新闻分类[7]、用户意图识别和内容审核等实际应用中。文本数据来源多样,包括网页内容[8]、电子邮件、社交媒体、支持票、保险索赔、用户评论和客户服务互动[9]。尽管文本中包含丰富的信息,但其非结构化的特性使得提取有意义的见解成为一个重大挑战。
文本分类方法可以分为手动注释[10]和自动注释[11]。手动注释虽然准确,但耗时且劳动密集;而自动注释利用机器学习模型[12]高效且经济地对文本进行分类,通常能够达到相当或更高的准确率。传统的机器学习通常包括两个步骤:特征提取和分类。常见的特征提取方法包括词袋模型(BoW)[13]、Word2Vec[14]和GloVe嵌入[15]、[16]。BoW基于词频生成向量,实现简单,但忽略了词序和上下文;其高维稀疏向量也增加了计算成本并降低了泛化能力。Word2Vec从局部上下文中捕获语义,而GloVe使用全局共现矩阵编码语义。然而,这两种方法产生的都是静态向量,无法适应多义性或不同任务,并且依赖于手动设计和训练,限制了高级特征的自动提取和跨任务适应性。
在分类步骤中,常用的传统算法包括决策树[17]、随机森林[18]、k近邻[19]、朴素贝叶斯[20]和支持向量机(SVMs)[21]。尽管这些算法在某些情况下表现良好,但它们通常严重依赖于领域知识[22],并且在建模复杂模式或高级抽象方面的能力有限。相比之下,深度学习模型[23]可以自动学习特征并从大型数据集中捕捉复杂的关系。流行的深度学习架构包括卷积神经网络(CNNs)[24]、循环神经网络(RNNs)[25]和基于注意力的机制[26]。这些模型通过学习层次化特征表示并有效建模复杂的语义依赖关系,解决了传统方法的不足。
尽管基于深度学习的自动文本分类方法已成为主流,但它们仍然面临几个挑战。首先,它们通常需要大量的标注训练数据,并且通常针对特定数据集进行优化,导致泛化能力有限。其次,这些模型作为黑箱运行,使其内部机制难以解释。此外,深度学习模型在训练过程中需要大量的计算资源,这对计算能力有限的应用来说是一个障碍[27]。
近年来,预训练语言模型(PLMs)在广泛的NLP任务中取得了显著的成功。其中,来自变换器(BERT;[28])的双向编码器表示表现出强大的性能,并成为最广泛使用的自编码PLMs之一[29]。通过在大规模无标签语料库上进行预训练,PLMs可以大大减少对标注数据的需求并提高任务适应性。
尽管BERT在自然语言理解(NLU)任务中取得了成功,但其在新闻文本分类中的潜力尚未得到充分探索[30]。与其他文本领域不同,新闻内容具有时间敏感性、动态变化和主题多样性。这些特点使得标准文本分类模型难以实现高性能。例如,新闻文章中的相同词汇根据时间或上下文因素可能传达不同的含义,给现有的PLMs带来了额外的挑战。然而,当前的研究对优化BERT用于新闻分类任务的关注有限。因此,本文的核心研究问题是:如何改进BERT的预训练策略和微调方法,以更好地捕捉新闻文章中的时间变化和语义细微差别,从而提高其在新闻文本分类中的准确率和效率?解决这个问题不仅提高了新闻分类系统的性能,也有助于NLP在时间敏感应用中的更广泛发展。
为了解决这些问题,本文基于BERT提出了两项创新来增强新闻文本处理。首先,在一般预训练阶段之后引入了一个中间的、特定于领域的预训练阶段。虽然BERT最初是在通用语料库上训练的,但新闻文章具有独特的语言特征;特定于领域的预训练使模型能够更有效地捕捉与任务相关的语义,提高其对新闻领域的理解。其次,本研究引入了一种自适应的选择性掩码策略。与传统的随机掩码不同,这种方法动态地选择和掩盖与任务相关的词汇,使模型能够更高效地学习领域特定知识,提高预训练的有效性和下游任务的性能。这种方法通过特定于任务的微调来改进BERT的理解,解决了语义稀疏性和上下文表示不足等问题。利用BERT的双向Transformer架构生成上下文敏感的词嵌入,所提出的方法克服了词袋模型(BoW)中的特征稀疏问题和传统嵌入(如Word2Vec和GloVe)的静态特性。因此,它显著提高了新闻文本分类的效率和准确性。实验结果验证了所提出的创新,显示出分类准确率和预训练效率的显著提升。
提高BERT在新闻文本分类中的性能具有重要的实际价值。一个优化后的模型可以大大提高自动化新闻内容处理的效率和分析能力,使新闻行业能够更快地响应实时信息需求。例如,更高效的新闻分类和过滤使媒体公司能够提高信息传递的及时性和准确性。此外,这项研究的结果不仅有利于新闻领域,还为其他文本分类任务提供了见解和方法论参考,从而推动了自然语言处理技术的更广泛发展和应用。本研究旨在满足实际需求,同时推动该领域的技术进步。本文的主要贡献如下:
(1) 我们提出了一个改进的分类框架,将通用预训练(GenePM)与特定于任务的预训练(TaskSPT)相结合。TaskSPT使用特定于领域的无监督数据进行自适应选择性掩码,并通过全连接层和Softmax生成最终的分类结果。
(2) 在微调过程中,对每一层应用不同的学习率以保留预训练的特征。Adam优化器结合热身和线性衰减策略,提高了收敛速度和训练稳定性。
(3) 我们识别并移除了下游监督学习任务中可能不正确的标签,并应用了重新加权和重新训练策略来提高标签质量和模型的整体鲁棒性。
本文的其余部分结构如下。第2节回顾了相关研究;第3节详细分析了所提出的改进预训练框架;第4节描述了清理监督数据中错误标签的过程;第5节概述了实验程序,并将我们的方法与基线模型的结果进行了比较;第6节总结了研究并提出了未来工作的方向。