基于相似性与差异性流形正则化的自适应增强算法(AdaBoost.SDM)研究:提升分类性能的新途径

【字体: 时间:2025年06月16日 来源:Pattern Recognition Letters 3.9

编辑推荐:

  本研究针对传统AdaBoost算法未充分利用数据流形结构的局限性,提出了一种融合相似性与差异性信息的混合图拉普拉斯正则化方法(AdaBoost.SDM)。通过构建凸目标函数约束模型预测在数据流形上的平滑性,实验证明该算法在26个真实数据集上显著优于传统AdaBoost及流形正则化算法(LapRLS/LapSVM),为集成学习领域提供了新的正则化范式。

  

在机器学习领域,自适应增强算法(AdaBoost)作为集成学习的经典方法,通过迭代调整样本权重构建强分类器。然而传统AdaBoost存在明显缺陷:其仅关注误分类样本的权重调整,却忽视了数据内在的几何结构。近年研究表明,利用流形假设(manifold assumption)约束模型在数据低维流形上的平滑性,可显著提升泛化能力。这一现象催生了拉普拉斯正则化最小二乘法(LapRLS)和支持向量机(LapSVM)等算法,但这些方法仅利用样本相似性信息,未能充分挖掘标签差异性对分类的指导价值。

针对这一研究空白,研究人员开展了基于相似性与差异性流形正则化的自适应增强算法(AdaBoost.SDM)研究。该工作创新性地构建了混合图拉普拉斯正则化框架,在凸优化目标中同时编码样本相似性(强制同类样本预测一致)和差异性(驱使异类样本预测符号相反)。通过理论推导证明了目标函数的凸性,并设计了高效的迭代求解算法。在26个OpenML数据集上的实验表明,AdaBoost.SDM平均准确率显著优于传统AdaBoost 4.7%,较LapSVM提升2.3%,且计算复杂度保持在与样本量平方相关的可接受范围。

关键技术方法包括:1) 构建混合图拉普拉斯矩阵处理相似/差异约束;2) 设计基于决策桩(decision stump)的加权基分类器迭代策略;3) 采用分层70:30划分的20次重复交叉验证;4) 使用配对t检验评估统计显著性。

AdaBoost.SDM算法
通过引入混合图拉普拉斯正则项重构目标函数,其中相似性约束项∑Wij
(f(xi
)-f(xj
))2
保证邻近样本预测一致,差异性项∑Wij
(f(xi
)+f(xj
))2
促使异类样本输出符号相反。理论证明该组合仍保持凸性,且时间复杂度为O(MNd+N2
d+MN2
)。

实验结果
在credit等数据集上,AdaBoost.SDM测试准确率达89.2%,较传统AdaBoost(84.5%)和LapSVM(86.9%)具有统计显著优势(p<0.05)。特别在高维稀疏数据中,其流形结构捕捉能力使F1-score提升达11.3%。

时间复杂度分析
虽然引入O(N2
d)的相似矩阵计算开销,但实际训练中通过稀疏化处理将平均单次迭代时间控制在传统AdaBoost的1.8倍以内,在credit数据集上完整训练仅需37秒。

该研究开创性地将混合图正则化引入Boosting框架,突破了传统方法仅利用单方面监督信息的局限。其核心价值在于:1) 为集成学习提供了新的几何结构约束范式;2) 通过可调节的相似/差异权重实现灵活的归纳偏置;3) 保持AdaBoost简洁性的同时显著提升复杂数据分类性能。未来可进一步探索该框架在多模态数据融合和在线学习中的应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号