基于粒球结构的GAdaBoost:面向标签噪声的高效鲁棒自适应增强算法

【字体: 时间:2025年06月17日 来源:Knowledge-Based Systems 7.2

编辑推荐:

  针对AdaBoost在标签噪声(尤其是多分类任务)中的敏感性和计算冗余问题,研究者提出基于粒计算(GrC)的GAdaBoost框架。该研究通过两阶段(数据粒化与自适应增强)设计,结合粒球生成(GBG)与改进的SAMME算法(GAdaBoost.SA),显著提升了算法在噪声环境下的鲁棒性和效率。实验验证其在噪声数据集上优于传统方法,为AdaBoost的扩展提供了新思路。

  

在机器学习领域,自适应增强(AdaBoost)算法因其卓越的集成性能被广泛应用于分类任务。然而,这一经典算法面临两大挑战:一是对标签噪声(label noise)的高度敏感性——错误标注的样本会因权重调整机制被反复强化,导致模型性能下降;二是传统以样本为最小计算单元的模式效率低下,尤其在大规模多分类(multiclass)场景中计算成本激增。尽管已有研究通过损失函数修正(如Rob_SAMME)或邻域噪声检测尝试解决,但往往陷入超参数敏感或时间复杂度过高的困境。

针对这些问题,重庆邮电大学的研究团队受粒计算(Granular Computing, GrC)启发,创新性地提出粒自适应增强框架GAdaBoost,相关成果发表于《Knowledge-Based Systems》。该研究核心突破在于将传统“细粒度”样本计算升级为“粗粒度”粒球(Granular-Ball, GB)操作,通过两阶段设计实现噪声免疫与效率提升:首先利用基于可证明粒度原则(POJG)的粒球生成方法(GBG-Ens)压缩数据并过滤噪声;随后在改进的SAMME算法(GAdaBoost.SA)中,以粒球为单位动态调整权重,使模型聚焦于难分类数据块而非单个噪声样本。

关键技术方法包括:1)面向集成学习的粒球生成(GBG-Ens),通过覆盖度与纯度的平衡优化实现数据压缩;2)粒球权重隐式更新机制,将AdaBoost的样本权重调整转化为粒球层面的注意力分配;3)基于GB结构的SAMME扩展算法,保留多分类特性同时降低噪声干扰。实验采用包含UCI数据集和模拟噪声的基准测试,对比SAMME及其鲁棒变体Rob_SAMME。

研究结果

  1. 粒球生成阶段:GBG-Ens方法在CIFAR-10等数据集上实现80%+的数据压缩率,同时通过边界粒球筛选有效隔离标签噪声,噪声容忍度较传统方法提升约40%。
  2. 效率对比:在100类分类任务中,GAdaBoost.SA训练速度较SAMME提升3.2倍,内存占用减少62%,证实粒球结构对计算资源的优化效果。
  3. 鲁棒性验证:在20%标签噪声环境下,GAdaBoost.SA分类准确率较Rob_SAMME平均提高15.7%,且对超参数变化呈现更稳定的敏感性曲线。
  4. 基学习器兼容性测试:以MLP和决策树为基学习器的实验表明,GAdaBoost框架摆脱了传统AdaBoost对样本权重原生支持的限制,扩展了算法适用场景。

结论与意义
该研究通过GrC与AdaBoost的深度融合,开创性地解决了噪声敏感与计算效率两大瓶颈。GAdaBoost.SA的成功验证表明:1)粒球结构能有效解耦噪声样本与难分类样本的权重耦合,使算法在噪声环境下保持稳定;2)粗粒度计算范式为集成学习提供了新的效率优化路径;3)隐式权重机制突破基学习器限制,推动AdaBoost在医疗诊断(如癌症分型)等复杂场景的应用。未来工作可探索粒球动态分裂策略与深度学习的结合,进一步释放框架潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号