
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度度量学习的端到端文档分类系统:创新性检测与模糊拒识的统一框架
【字体: 大 中 小 】 时间:2025年08月10日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种集成深度度量学习(Deep Metric Learning)和K近邻(KNN)算法的端到端文档分类框架,创新性地解决了新类别检测(Novelty Detection)和模糊拒识(Ambiguity Rejection)两大挑战。通过定制化的边界对比损失函数(Margin-based Contrastive Loss)压缩特征空间,结合无监督KNN评分机制,在私有数据集和公开基准RVL-CDIP上实现了99%的分类精度和优异的覆盖率(Coverage Rate)。
亮点
本研究首次将文本分类器(Text-Based Classifier)与KNN算法结合,不仅实现新类别检测(Novelty Detection),还能有效处理模糊拒识(Ambiguity Rejection)。通过深度度量学习优化后的特征空间,使KNN在欧氏距离(Euclidean Distance)评分中展现出卓越的异常值处理能力。
统一端到端文档分类框架
如图2所示,该框架包含三大核心组件:
分类器:采用深度度量学习训练,兼具特征提取和初步分类功能
新类别&模糊拒识器:基于最后一层隐藏层特征,通过KNN算法计算置信度分数
共识协议模块:当分类结果置信度低于阈值时触发人工复核流程
实验材料
研究采用法国行政文档(Private Dataset)和RVL-CDIP公开基准:
私有数据集:细分为Small/Tiny两种规模评估新类别检测
RVL-CDIP:验证算法在英文文档上的泛化能力
结论
通过定制化边界对比损失函数压缩知识空间,结合KNN的局部特征分析能力,该框架在保持已知类别高召回率(Recall)的同时,将分类错误率降至1%以下,为实际工业应用提供了可靠解决方案。
生物通微信公众号
知名企业招聘