基于神经标签嵌入与弱监督学习的文本分类增强方法及其应用

【字体: 时间:2025年09月14日 来源:Expert Systems with Applications 7.5

编辑推荐:

  本文提出一种名为LemWec的创新模型,通过融合监督式句子嵌入(SSE)与弱监督分类(WSC)技术,有效解决了文本分类中标注数据稀缺的难题。模型引入标签名称作为种子信息,设计新型池化层编码器,并结合伪标签生成与噪声适应机制,在四个真实数据集上显著超越现有基线方法,为自然语言处理(NLP)领域的低资源学习提供了新范式。

  

Neural Text Classification

相较于基于浅层学习的传统方法,深度学习驱动的文本分类通常通过预训练语言模型学习文本的嵌入向量表示。目前,词级别(word level)的表示学习已较为成熟,其中连续词袋模型(CBOW)和Skip-gram是两大主流架构。

Problem Definition

给定由N个文档和K个类别标签组成的语料库D = {D1, …, DN},每个文档Di对应一个标签yi ∈ {1, …, K}(或以one-hot向量形式yi ∈ [0,1]K表示)。每个文档由词序列构成,即Di = {wi,1, …, wi,li}。本研究在弱监督设置下训练多标签分类器,其监督信号来源于以下资源:

• 种子信息(Seed)

The Model

图1展示了LemWec模型的整体架构。下文将依次介绍其核心组件:词嵌入(word embedding)、句子嵌入(sentence embedding)、伪标签生成(pseudo-labeling)及噪声适应技术(noise adaptation)。最后,我们将阐述如何通过统一的目标函数,将句子嵌入与多类别分类整合进神经网络架构中。

Experiments

本节通过一系列实验验证以下主张:

(C1) 基础分类器性能优于当前最优文本分类方法;

(C2) 在训练样本有限时,基础分类器显著优于所有基线;

(C3) 利用伪标签的弱监督学习可进一步提升模型表现;

(C4) 模型成功的关键在于监督式句子嵌入(SSE)模块。

Conclusion

本文提出的LemWec框架通过整合监督式句子嵌入与弱监督学习,显著提升了学习效率。其核心贡献在于有效融合了这两种范式。在监督式句子嵌入方面,我们引入标签名称等种子信息,并设计了带有新型池化层的编码网络;在弱监督学习中,我们采用伪标签技术,同时克服了其依赖高置信度样本的局限性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号