开放集噪声环境下基于标签分布学习的文本分类方法LLD-OSN研究

【字体: 时间:2025年05月30日 来源:Expert Systems with Applications 7.5

编辑推荐:

  【编辑推荐】针对开放集噪声数据中OOD样本干扰文本分类性能的难题,研究人员提出LLD-OSN方法,通过双网络架构结合噪声分类头将样本划分为干净集、模糊集和OOD集,分别采用Mixup策略、马氏距离(Mahalanobis Distance)和扁平化技术学习标签分布,并引入协同教学(Co-teaching)提升模型鲁棒性。实验证明该方法在合成与真实数据集上均显著提升分类准确性,为自然语言处理领域噪声数据处理提供了新范式。

  

在自然语言处理领域,预训练语言模型(PLM)的卓越性能往往依赖于高质量标注数据,但现实场景中通过远程监督、众包等方式获取的数据不可避免地包含噪声标签。更棘手的是,传统基于封闭集假设的噪声鲁棒方法(如噪声过渡矩阵估计或鲁棒损失函数)难以处理开放集噪声(OOD)——这些不属于任何已知类别的样本不仅会降低模型性能,还会被错误归类并产生高置信度预测。现有图像领域OOD处理方法因文本数据的语义敏感性难以直接迁移,这种困境促使研究人员寻求新的解决方案。

为此,来自中国的研究团队在《Expert Systems with Applications》发表研究,提出LLD-OSN(开放集噪声下的标签分布学习)框架。该方法创新性地将训练样本划分为三类:通过低损失策略筛选的干净样本、噪声分类头识别的OOD样本以及介于二者间的模糊样本。针对不同类型样本,分别采用混合策略(Mixup)学习模糊集的标签分布,以马氏距离监督OOD样本并实施预测概率扁平化,同时结合协同教学的双模型交叉更新机制和软标签技术,最终构建统一的优化目标。

关键技术包括:1)双网络架构同步执行分类与噪声检测;2)基于小损失假设和噪声分类头的三向样本划分;3)对模糊样本实施Mixup数据增强;4)利用马氏距离度量OOD样本特征空间分布;5)协同教学框架下的交叉模型参数更新。实验使用20 Newsgroups、Ag Mix 20News等合成数据集及Yahoo Answers、NoisywikiHow等真实场景数据集验证有效性。

研究结果

  1. 样本划分机制验证:通过可视化分析证明,传统封闭集方法在开放集噪声下会强制拟合OOD样本(图1),而LLD-OSN能准确分离三类样本,其中噪声分类头对OOD样本的识别准确率达89.6%。

  2. 混合策略效能:在模糊样本集上,Mixup生成的虚拟样本使标签分布学习误差降低37%,显著缓解了错误标签传播问题。

  3. 马氏距离的监督作用:OOD样本经马氏距离约束后,其被误分类为已知类别的概率下降52%,扁平化技术进一步将模型对OOD样本的平均预测置信度从0.82降至0.31。

  4. 协同教学的优势:双模型交叉更新使特征学习的一致性提升28%,结合软标签策略后,在20 Newsgroups数据集上的分类准确率较基线方法SelfMix提高6.3个百分点。

结论与意义
该研究首次在文本分类领域系统区分了ID(分布内)与OOD噪声的处理策略,其核心贡献在于:1)提出三阶段样本划分框架,突破封闭集假设限制;2)创新性将马氏距离与扁平化技术结合,有效抑制OOD样本的过置信预测;3)通过定制化学习策略最大化利用噪声数据信息。实验表明LLD-OSN在40%噪声比例下仍保持78.4%的准确率,比基线方法平均提升15.2%。

这项研究不仅为开放集文本分类任务提供了实用工具,其"分治策略"思想对图像、时序数据等跨领域噪声处理也有启发意义。未来工作可探索噪声分类头与预训练模型的深度融合,以及动态阈值调整机制以应对更复杂的噪声场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号