基于图自适应正则化的大间隔分类器:针对类不平衡与异常值的灵活阈值优化研究

【字体: 时间:2025年09月29日 来源:Pattern Recognition Letters 3.3

编辑推荐:

  本文提出在Gabriel图(GG)分类器(如Chipclass、GMM-GG和RBF-GG)中引入类级别正则化超参数,通过自适应阈值策略实现异常值剔除与类不平衡处理。研究显示,该策略在保留边界区域结构的同时显著提升分类性能,经贝叶斯优化调参后,模型在多个数据集上达到与前沿方法相当的统计性能。

  
Highlight
本文的核心创新点在于:
  • 在Gabriel图(GG)分类器中引入类级别正则化超参数,实现异常值的选择性剔除与边界保留的双重目标。
  • 自适应阈值机制可为多数类生成更高阈值、少数类生成更低阈值,直接改善类间平衡与判别能力。
  • 通过超参数调优与交叉验证,柔性阈值版本的GG分类器在平均排名上显著优于固定阈值版本,且性能与当前主流模型相当。
Gabriel图
给定数据集D = {x1, x2, …, xm},其中xi ∈ Rd,Gabriel图(GG)定义为无向图,其顶点集为D中的样本,边eij存在的充要条件是:以xi和xj为直径的超球体内不包含任何其他样本点。
边际最大化与图结构
Chipclass通过构造相邻支持向量(SSVs)之间的垂直平分超平面,隐式实现了局部边际最大化。全局边际可通过计算所有局部边际的平均值进行估计,也可通过公式(7)中Mi的平均值间接衡量。
边际与质量指数的关系
如图6所示,边际随质量指数(Q(xi))阈值的变化呈现非单调性。通过将公式(7)拆分为保留样本与剔除样本两部分求和发现,剔除低质量样本(通常为异常值)后,求和项中负贡献减少,从而提升了整体边际水平。
实验与结果
我们在16个数据集(15个来自UCI,1个来自KEEL)上对比了标准Chipclass、GMM-GG、RBF-GG与其柔性阈值版本。结果显示,通过贝叶斯优化调整超参数hclass1和hclass2后,柔性阈值模型在多数指标上显著优于固定阈值基线,且与支持向量机(SVM)等先进模型性能相当。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号