基于遗传编程多类解构与特征增强的MDGP-Forest算法:解决多类别不平衡学习的新策略

【字体: 时间:2025年06月29日 来源:Pattern Recognition 7.5

编辑推荐:

  针对多类别不平衡学习中存在的样本分布不均、特征重叠等难题,研究人员提出了一种结合遗传编程(GP)与深度森林的MDGP-Forest算法。该算法通过多类解构、实例硬度采样和GP特征构建,显著提升了少数类识别性能,在35个数据集上的实验表明其预测性能优于现有方法,为医疗、金融等领域的多类不平衡问题提供了新解决方案。

  

在机器学习领域,类别不平衡问题如同一个顽固的"偏科生"——少数类样本总是被多数类淹没,尤其在医疗诊断、金融风控等场景中,这种偏差可能导致关键信号被忽略。当问题扩展到多类别时,情况更复杂:各类样本数量差异悬殊、特征相互纠缠,像一团打结的毛线,传统二分类解决方法直接"失灵"。更棘手的是,现有研究大多聚焦于粗糙的样本量差异,却忽视了类间重叠程度、实例分类难度等细粒度因素。深度森林(Deep Forest)虽在价格预测等领域表现优异,但其特征增强方式对多类不平衡问题仍显"力不从心"。

为此,福建某高校团队在《Pattern Recognition》发表研究,提出MDGP-Forest算法。该研究创新性地将遗传编程(GP)与深度森林结合:先将多类数据拆解成多个二分类子集,像拆解九连环般化解复杂类间关系;接着基于实例硬度进行欠采样,剔除噪声样本的同时聚焦决策边界附近的"关键实例";最后通过GP种群为每个子集构建区分性特征,其改进的适应度函数能评估特征对增强向量的增量重要性,如同为模型装上"特征筛选器"。

关键技术包括:1) 多类解构生成二分类子集;2) 基于实例硬度的欠采样;3) GP种群并行特征构建;4) 增量重要性评估的适应度函数。实验使用35个公开数据集验证性能。

多类解构与采样策略
通过"一对多"策略将原始数据分解为多个二分类子集,每个子集对应一个目标类与其他类的二元关系。采用增强向量量化实例硬度,对多数类实施保留边界样本的欠采样,使后续特征构建更关注分类模糊区域。

GP特征构造模块
每个二分类子集配备独立的GP种群,通过遗传操作生成新特征。改进的适应度函数综合考量Gini系数与特征对增强向量的相对重要性,确保新特征既能提升当前层性能,又能补充已有特征信息。例如构造出(x12+log(x2))等高阶特征,有效分离重叠类。

层间生长机制
新特征与原始特征拼接后训练森林层,通过交叉验证决定是否停止生长。这种机制使模型深度自适应数据复杂度,在蛋白质折叠预测等任务中展现出层级特征学习能力。

实验验证
在35个数据集上的对比实验显示,MDGP-Forest在G-mean和F1-score上平均超越基准算法12.7%和9.3%。消融实验证实GP特征构造模块贡献最大性能提升(约8.5%),而硬度采样策略使边界实例识别率提高15.2%。参数敏感性分析表明种群规模50、树深7层时达到最优权衡。

该研究开创性地将进化计算与深度森林结合,其多类解构策略有效规避了复杂类间关系,而GP特征构造模块突破了传统增强向量的局限性。特别是在医疗多疾病分级场景中,算法对中度重叠类别的识别准确率提升显著。未来可探索动态GP算子适应机制,以及与其他元学习框架的融合。这项成果不仅为多类不平衡学习提供了新范式,其"问题分解-特征进化"的思路对处理其他复杂分类问题也具有启示意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号