Fuzzy BERTopic:一种基于BERT和模糊聚类的神经多主题建模方法

《Knowledge-Based Systems》:Fuzzy BERTopic: A neural multi-topic modeling approach based on BERT and Fuzzy clustering

【字体: 时间:2026年02月19日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  短文本主题建模中提出基于BERT的模糊聚类方法,通过语义嵌入和模糊分类解决数据稀疏问题,多主题分配与语义关键词提取结合提升主题多样性,并创新设计五项语义评估指标,实验证明其文档描述能力优于传统模型。

  
作者:Atiyeh Nikbakht | Zahra Zojaji
伊朗伊斯法罕大学软件工程系

摘要

主题建模从大量文本中提取主题和隐藏结构。由于社交网络作为生成短文本的主要平台,在网络上提供了大量信息,因此对短文本进行主题建模具有特殊的重要性。尽管在长文本的主题建模方面取得了成功进展,但由于特征稀缺和单词共现率低,短文本的主题建模仍然存在稀疏性问题。本文提出了一种基于BERT语言模型的短文本神经主题建模方法。与传统神经模型为每个文档分配一个主题不同,该方法通过模糊聚类方法为每个文档分配多个主题。为了解决稀疏性问题,对每个主题使用了基于BERT的关键词提取方法,并利用排名来保持主题多样性。此外,还引入了新的评估指标,包括语义多样性、语义连贯性、文档相似性、标签相似性和召回率,以更好地评估语义空间上的主题建模效果。为了将所提出的模型与多主题模型和单主题模型进行比较,我们检验了多标签短文本、未标记短文本、单标签短文本和长文本数据集。结果表明,所提出的方法在文档描述方面表现最佳,优于其他类似模型。同时,在保持提取主题多样性的同时,该模型在短文本数据集中的连贯性也最高。

引言

主题建模是一组无监督方法,旨在发现和提取大量文档中的隐藏语义模式和结构。它在从大量文本数据中提取潜在主题方面发挥着关键作用,并具有广泛的实际应用,如情感分析、趋势检测、推荐系统和信息检索。特别是随着社交媒体平台、评论网站和消息服务上用户生成内容的增加,推文、评论和标题等短文本已成为重要的信息来源。常见的主题模型(如LDA [1] 和 NMF [2])依赖于词袋模型,这些模型强调单词的出现和共现,而忽略了单词之间的语义和依赖关系。因此,LDA和NMF模型在处理短文本时会出现稀疏性问题 [3]。稀疏性指的是由于短文本中的特征数量有限,单词的共现也受到限制。此外,当个人阅读短文本时,他依赖于先前的知识和信息来理解文本,而这在传统主题建模方法中是不可用的。因此,由于数据稀疏性和单词共现有限,短文本的主题建模仍然是一个方法论挑战。因此,迫切需要专门为短文本设计的高级主题建模方法,这些方法可以利用语义嵌入和灵活的聚类技术。
双词主题模型(BTM)[4] 被提出用于短文本的主题建模,它使用词对计数方法。与其它传统方法一样,BTM并不根据文档的语义和领域进行分析,也不会对文档进行语义上的主题建模。近年来,嵌入方法和语言模型被用于主题建模。Top2Vec模型 [5] 使用doc2vec方法 [6] 构建文档和单词嵌入,并在降维后对它们进行聚类。同样,在BERTopic模型 [7] 中,首先使用Sentence-BERT语言模型 [8] 对每个文档进行嵌入,然后在聚类之前进行降维。尽管Top2Vec和BERTopic模型都使用嵌入方法和语言模型,并根据语义向量的接近程度对文档进行聚类,但它们每个文档只考虑一个主题,限制了每个文档只能有一个主题。此外,BERTopic模型使用c-TF-IDF方法提取每个主题的单词,忽略了单词的语义。
在本文中,我们介绍了用于短文本多主题建模的Fuzzy BERTopic模型。简而言之,在Fuzzy BERTopic模型中,首先使用语言模型对文档进行嵌入。在嵌入降维后,通过模糊聚类来考虑每个文档的多个主题。使用模糊聚类允许文档属于多个具有不同隶属程度的簇,从而考虑不同主题与每个文档的相关性。这种灵活性使模型能够更好地反映现实世界内容的多主题特性。在最后阶段,为了克服稀疏性问题,使用结合排名的语义方法来提取每个主题的单词。在每个主题的单词提取中使用语义方法确保只考虑单词的含义和语义关系,而不仅仅是简单地计数单词的出现次数。
主题建模的评估指标主要依赖于不考虑主题词语义的方法,而是使用精确的单词计数等方法。因此,迫切需要定义能够利用语义方法来评估主题模型的指标。为了从多个角度更全面地评估主题模型,我们引入了五种新的评估指标。本文的主要贡献包括:
  • 使用KeyBERT语义关键词提取方法解决短文本主题建模中的稀疏性问题。
  • 使用模糊聚类为每个文档分配多个主题。
  • 通过排名提高提取主题的多样性。
  • 引入五种新的评估指标,从不同角度评估模型。
  • 本文的结构如下:第2节回顾相关工作。第3节提出问题陈述。第4节介绍Fuzzy BERTopic模型,第5节介绍新的评估指标。第6节讨论评估和实验结果,第7节讨论伦理考量。最后,第8节总结本文。

    相关工作

    相关工作

    鉴于本文将重点定义主题模型和评估指标,相关工作将分为两类进行回顾:主题建模方法(第2.1节)和主题建模的评估指标(第2.2节)。

    问题陈述

    主题建模旨在揭示文档集合中的潜在主题结构。形式上,令语料库定义为 D = {d1, d2, …, dn},其中每个文档 di 包含一系列单词 tj。目标是发现一组主题 T,每个主题 T 由单词的分布特征表示。在短文本中,单词 tj 的出现非常稀疏,这使得传统的基于频率的方法不适合提取主题 T

    Fuzzy BERTopic模型

    所提出的Fuzzy BERTopic模型由几个组件组成,每个组件的输出作为下一个组件的输入。在该模型中,首先使用语言模型将每个文档转换为嵌入(第4.1节)。然后降低嵌入的维度(第4.2节),并使用模糊聚类来考虑文档的多主题特性(第4.3节)。这是通过为每个文档分配一个隶属程度来实现的

    新的评估指标

    之前已经讨论了在主题建模中使用语义方法定义新评估指标的重要性。在本节中,我们将介绍这些指标。文档相似性指标在第5.1节中解释。标签相似性和召回率指标分别在第5.2节(标签相似性指标)和第5.3节(召回率指标)中介绍。第5.4节(语义连贯性指标)和第5.5节(语义多样性指标)介绍了语义连贯性和语义多样性指标。

    评估

    在本节中,我们评估Fuzzy BERTopic模型。本研究的主要目标是解决以下研究问题:基于模糊聚类的主题建模能否有效地为每个短文本文档分配多个主题,并通过结合单词的语义信息来减少稀疏性?评估分为两部分。在多标签短文本数据集中,将提出的模型与多主题模型和单主题模型进行比较,使用诸如标签

    伦理考量

    虽然我们实验中使用的数据集(科学文章的Title、Towards、DBLP、M10;新闻报道的BBC News;以及用户产品评论的Amazon和Airline_10000)不包含敏感的个人信息,但我们认识到主题建模技术经常应用于社会敏感的情境中,如错误信息检测、政治话语分析或用户生成内容的情感分析。在这种情况下,可能会出现潜在的伦理问题,包括

    结论

    在本文中,我们提出了一种用于多主题短文本的主题建模方法。通过使用模糊聚类,为每个文档考虑了多个主题。为了解决短文本中的稀疏性问题,使用了语义方法,并采用了排名方法来增加多样性。还定义了使用语义方法的评估指标。使用语言模型和语义方法而不是单词频率,使所提出的模型能够克服

    CRediT作者贡献声明

    Atiyeh Nikbakht:撰写——原始草稿、可视化、验证、软件、资源、方法论、调查。
    Zahra Zojaji:撰写——审稿与编辑、验证、项目管理、方法论、概念化。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    知名企业招聘

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号