MAGNet:一种多模态知识增强图网络,用于早期误传检测
《Neurocomputing》:MAGNet: A multimodal knowledge-augmented graph network for early-stage misinformation detection
【字体:
大
中
小
】
时间:2025年09月25日
来源:Neurocomputing 6.5
编辑推荐:
针对多标签网页文本分类中的长尾标签分布和文本长度不一问题,提出基于特征自分割与协同注意力机制的方法,有效提取低频标签相关特征并优化文本分段策略,实验表明该方法优于现有基准。
在当今信息爆炸的时代,网页文本作为互联网内容的重要组成部分,其分类任务正变得愈发复杂。尤其是在多标签网页文本分类(Multi-Label Webpage Text Classification, MLWTC)领域,由于网页内容的自然分布差异,导致标签分布呈现长尾现象。此外,网页文本长度的不一致性也给基于序列的深度学习模型带来了挑战,因为这些模型通常需要设定固定的序列长度。为了解决这些问题,本文提出了一种特征自分割策略,该策略根据深度学习模型的序列长度对不同长度的网页文本执行不同的分割策略,从而在保留长文本信息的同时,减少短文本中噪声数据的引入。同时,通过计算相邻段落之间的注意力,以及标签与不同段落之间的注意力,构建了共注意力网络,不仅能够突出文档中的重要内容,还能强调与标签相关的部分,从而更有效地提取低频标签相关的特征,解决长尾标签问题。
多标签文本分类(Multi-Label Text Classification, MLTC)是自然语言处理(Natural Language Processing, NLP)领域的一个重要研究方向,广泛应用于网站分类、社交媒体分析、医疗文本分类等多个领域。传统的MLTC方法主要包括基于机器学习(Machine Learning, ML)的方法和基于深度学习(Deep Learning, DL)的方法。基于机器学习的方法通常需要人工提取文本特征,然后使用诸如随机森林、决策树和支持向量机等模型进行分类。这类方法依赖于人工特征工程,其分类准确率在很大程度上取决于特征选择的质量。然而,随着计算技术的迅速发展,对大规模数据进行快速而准确的处理已成为迫切需求。传统的机器学习模型由于其结构的浅层性,难以从大规模文本数据中提取丰富的语义特征,因此在分类准确率方面存在局限。
相比之下,基于深度学习的方法通过构建复杂的神经网络模型,直接从文本中学习更深层次的特征,从而实现更高的分类准确率。近年来,越来越多的研究者开始使用如卷积神经网络(Convolutional Neural Network, CNN)、注意力机制(Attention mechanism)、Transformer和图神经网络(Graph Neural Network, GNN)等深度学习模型进行文本分类。这些模型不仅能够捕捉文本中的局部特征,还能通过注意力机制强调文本中与特定标签相关的重要信息,从而提升分类性能。
然而,尽管深度学习方法在文本分类任务中表现出色,但在实际应用中仍然面临一些挑战。其中,网页文本长度的不一致性是主要问题之一。网页文本的长度差异较大,导致基于序列的深度学习模型在处理时需要设定固定的序列长度。如果设定过长,短文本可能会引入过多的噪声数据;如果设定过短,长文本则可能被截断,而能够反映特定标签的信息往往位于文本的末尾,这会严重影响分类结果的准确性。因此,如何在不同长度的文本中合理地分割文本,同时保留关键信息,成为亟待解决的问题。
另一个关键问题在于标签分布的长尾现象。由于网页内容的自然分布差异,多标签网页文本分类数据集通常存在标签频率不平衡的问题,即高频标签(High-Frequency, HF)对应的文档数量远多于低频标签(Low-Frequency, LF)对应的文档数量。这种不平衡会导致模型在训练过程中过度拟合高频标签,而忽视低频标签的特征提取,从而影响整体分类效果。为了解决这一问题,一些研究者尝试通过引入注意力机制来增强模型对低频标签的关注。例如,Holste等人提出了一种用于疾病多标签文本分类的注意力方法,而Qiu等人则通过构建多粒度约束的注意力机制,增强了分类器对标签层级依赖性的理解。然而,这些方法通常依赖于单一的注意力机制,难以同时突出文档中的重要内容和与标签相关的关键信息。
本文针对上述两个问题提出了一个创新性的解决方案。首先,针对网页文本长度不一致的问题,我们提出了一种特征自分割策略,该策略根据网页文本的实际长度和深度学习模型的序列长度设定,对不同长度的文本采用不同的分割方式。这一策略能够有效保留长文本的完整信息,同时避免短文本中引入过多的噪声数据。其次,为了更好地突出文档中的重要内容和与标签相关的关键信息,我们计算了文档段落之间的注意力以及标签与段落之间的注意力,并构建了共注意力网络。该网络通过整合这些注意力得分,进一步强化了模型对低频标签相关特征的提取能力,从而有效缓解长尾标签问题。
在实验部分,我们使用了手动标注的Energy Website Multi-Label Webpage Text(EWMWT)数据集,以及三个基准多标签文本分类数据集进行比较。实验结果表明,本文提出的方法在这些数据集上的表现优于所有基线方法。此外,我们还对模型的各个组成部分进行了深入分析,以验证其有效性。结果表明,特征自分割策略和共注意力网络的结合,不仅提高了模型的分类准确率,还增强了其对低频标签的识别能力。
为了验证本文提出方法的有效性,我们构建了一个手动标注的EWMWT数据集。该数据集来源于Alex Top 1 M数据集,并由三位行业专家在30天的时间内对10,000条高度可信的能源领域多标签网页文本进行了标注。EWMWT数据集包含7,000条训练文本和3,000条测试文本,其统计结果如表1所示。表1中每个符号的具体含义见表2。通过构建这一数据集,我们能够更全面地评估模型在能源领域多标签网页文本分类任务中的性能。
在方法部分,我们提出了一种基于特征分割和注意力机制的多标签网页文本分类模型(MLWT-FSAM)。该模型的结构如图1所示。首先,为了保留长文本的完整信息并减少短文本中噪声数据的引入,我们根据网页文本的长度和深度学习模型的序列长度设定,对不同长度的文本采用不同的分割策略。其次,为了突出文档中的重要内容和与标签相关的关键信息,我们计算了文档段落之间的注意力以及标签与段落之间的注意力,并构建了共注意力网络。该网络通过整合这些注意力得分,进一步强化了模型对低频标签相关特征的提取能力,从而有效缓解长尾标签问题。
在实验部分,我们使用了手动标注的EWMWT数据集,以及三个基准多标签文本分类数据集进行比较。实验结果表明,本文提出的方法在这些数据集上的表现优于所有基线方法。此外,我们还对模型的各个组成部分进行了深入分析,以验证其有效性。结果表明,特征自分割策略和共注意力网络的结合,不仅提高了模型的分类准确率,还增强了其对低频标签的识别能力。
本文的主要创新点包括:首先,提出了一种特征自分割策略,该策略根据网页文本的实际长度和深度学习模型的序列长度设定,对不同长度的文本采用不同的分割方式,从而在保留长文本信息的同时,减少短文本中噪声数据的引入。其次,通过计算文档段落之间的注意力以及标签与段落之间的注意力,构建了共注意力网络,该网络能够更有效地提取低频标签相关的特征,从而解决长尾标签问题。最后,通过在手动标注的EWMWT数据集和三个基准多标签文本分类数据集上的实验验证,证明了本文提出的方法在多标签网页文本分类任务中的优越性。
在实施过程中,我们首先对网页文本进行预处理,包括去除噪声、分词和词干提取等步骤。然后,根据文本长度和模型设定的序列长度,采用不同的分割策略对文本进行处理。例如,对于较长的文本,我们采用更细粒度的分割方式,以确保模型能够捕捉到所有重要的信息;而对于较短的文本,则采用较粗粒度的分割方式,以减少噪声数据的引入。分割后的文本被输入到基于注意力机制的模型中,模型通过计算相邻段落之间的注意力,以及标签与段落之间的注意力,来识别和强调文本中与标签相关的重要信息。
为了进一步提升模型的性能,我们构建了共注意力网络,该网络通过整合文档段落之间的注意力和标签与段落之间的注意力,使得模型能够在整体上更好地理解和处理文本内容。共注意力网络不仅能够突出文档中的重要内容,还能强调与标签相关的关键信息,从而更有效地提取低频标签相关的特征。实验结果表明,这种方法在处理长尾标签问题时具有显著优势,能够提高模型对低频标签的识别能力,同时保持对高频标签的准确分类。
在实验设计方面,我们采用了交叉验证的方法,以确保模型的稳定性和泛化能力。同时,我们还对模型的各个组件进行了消融实验,以验证其对最终分类结果的贡献。实验结果表明,特征自分割策略和共注意力网络的结合,能够显著提升模型的分类性能。此外,我们还对模型的运行效率进行了评估,结果表明,尽管模型结构较为复杂,但其在实际应用中的计算成本仍然可控,能够在合理的时间内完成对大规模网页文本数据的分类任务。
本文的研究成果不仅为多标签网页文本分类问题提供了新的解决方案,也为相关领域的研究者和工程师提供了有价值的参考。未来的研究方向可能包括进一步优化特征自分割策略,以适应更多类型的网页文本;探索更高效的注意力机制,以提高模型的计算效率;以及结合其他先进的深度学习技术,如自监督学习和迁移学习,以提升模型在不同数据集上的泛化能力。此外,我们还计划将本文提出的方法应用于其他领域的多标签文本分类任务,如金融文本分类和新闻文本分类,以验证其广泛适用性。
总之,本文通过提出一种创新性的特征自分割策略和共注意力网络,有效解决了多标签网页文本分类中的长尾标签问题和文本长度不一致的问题。实验结果表明,该方法在多个数据集上的表现优于现有方法,具有较高的分类准确率和较强的泛化能力。本文的研究成果为多标签网页文本分类领域提供了新的思路和技术手段,具有重要的理论和应用价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号