
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于粒球结构的GAdaBoost:面向标签噪声的高效鲁棒自适应增强算法
【字体: 大 中 小 】 时间:2025年06月17日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对AdaBoost在标签噪声(尤其是多分类任务)中的敏感性和计算冗余问题,研究者提出基于粒计算(GrC)的GAdaBoost框架。该研究通过两阶段(数据粒化与自适应增强)设计,结合粒球生成(GBG)与改进的SAMME算法(GAdaBoost.SA),显著提升了算法在噪声环境下的鲁棒性和效率。实验验证其在噪声数据集上优于传统方法,为AdaBoost的扩展提供了新思路。
在机器学习领域,自适应增强(AdaBoost)算法因其卓越的集成性能被广泛应用于分类任务。然而,这一经典算法面临两大挑战:一是对标签噪声(label noise)的高度敏感性——错误标注的样本会因权重调整机制被反复强化,导致模型性能下降;二是传统以样本为最小计算单元的模式效率低下,尤其在大规模多分类(multiclass)场景中计算成本激增。尽管已有研究通过损失函数修正(如Rob_SAMME)或邻域噪声检测尝试解决,但往往陷入超参数敏感或时间复杂度过高的困境。
针对这些问题,重庆邮电大学的研究团队受粒计算(Granular Computing, GrC)启发,创新性地提出粒自适应增强框架GAdaBoost,相关成果发表于《Knowledge-Based Systems》。该研究核心突破在于将传统“细粒度”样本计算升级为“粗粒度”粒球(Granular-Ball, GB)操作,通过两阶段设计实现噪声免疫与效率提升:首先利用基于可证明粒度原则(POJG)的粒球生成方法(GBG-Ens)压缩数据并过滤噪声;随后在改进的SAMME算法(GAdaBoost.SA)中,以粒球为单位动态调整权重,使模型聚焦于难分类数据块而非单个噪声样本。
关键技术方法包括:1)面向集成学习的粒球生成(GBG-Ens),通过覆盖度与纯度的平衡优化实现数据压缩;2)粒球权重隐式更新机制,将AdaBoost的样本权重调整转化为粒球层面的注意力分配;3)基于GB结构的SAMME扩展算法,保留多分类特性同时降低噪声干扰。实验采用包含UCI数据集和模拟噪声的基准测试,对比SAMME及其鲁棒变体Rob_SAMME。
研究结果
结论与意义
该研究通过GrC与AdaBoost的深度融合,开创性地解决了噪声敏感与计算效率两大瓶颈。GAdaBoost.SA的成功验证表明:1)粒球结构能有效解耦噪声样本与难分类样本的权重耦合,使算法在噪声环境下保持稳定;2)粗粒度计算范式为集成学习提供了新的效率优化路径;3)隐式权重机制突破基学习器限制,推动AdaBoost在医疗诊断(如癌症分型)等复杂场景的应用。未来工作可探索粒球动态分裂策略与深度学习的结合,进一步释放框架潜力。
生物通微信公众号
知名企业招聘