基于深度度量学习的端到端文档分类系统:创新性检测与模糊拒识的统一框架

【字体: 时间:2025年08月10日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出了一种集成深度度量学习(Deep Metric Learning)和K近邻(KNN)算法的端到端文档分类框架,创新性地解决了新类别检测(Novelty Detection)和模糊拒识(Ambiguity Rejection)两大挑战。通过定制化的边界对比损失函数(Margin-based Contrastive Loss)压缩特征空间,结合无监督KNN评分机制,在私有数据集和公开基准RVL-CDIP上实现了99%的分类精度和优异的覆盖率(Coverage Rate)。

  

亮点

本研究首次将文本分类器(Text-Based Classifier)与KNN算法结合,不仅实现新类别检测(Novelty Detection),还能有效处理模糊拒识(Ambiguity Rejection)。通过深度度量学习优化后的特征空间,使KNN在欧氏距离(Euclidean Distance)评分中展现出卓越的异常值处理能力。

统一端到端文档分类框架

如图2所示,该框架包含三大核心组件:

  1. 分类器:采用深度度量学习训练,兼具特征提取和初步分类功能

  2. 新类别&模糊拒识器:基于最后一层隐藏层特征,通过KNN算法计算置信度分数

  3. 共识协议模块:当分类结果置信度低于阈值时触发人工复核流程

实验材料

研究采用法国行政文档(Private Dataset)和RVL-CDIP公开基准:

  • 私有数据集:细分为Small/Tiny两种规模评估新类别检测

  • RVL-CDIP:验证算法在英文文档上的泛化能力

结论

通过定制化边界对比损失函数压缩知识空间,结合KNN的局部特征分析能力,该框架在保持已知类别高召回率(Recall)的同时,将分类错误率降至1%以下,为实际工业应用提供了可靠解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号