基于两级遗传算法的非线性特征工程:提升可解释机器学习模型性能的创新框架

【字体: 时间:2025年07月07日 来源:Machine Learning with Applications

编辑推荐:

  本研究针对传统机器学习模型在特征工程中存在的非线性转换缺失、单次特征选择局限及超参数依赖等问题,提出了一种基于NSGA-II的两级遗传算法框架。通过bootstrap采样和7种非线性变换(如sigmoid、tanh),结合微-宏层次优化策略,在12个跨领域数据集上实现F1分数平均提升1.5%、特征集缩减54.5%,并开源Python工具feature-gen。该研究为平衡模型性能与可解释性提供了新范式。

  

在人工智能广泛应用于医疗、金融等关键领域的今天,深度学习模型虽具有强大的预测能力,却因"黑箱"特性难以解释决策过程。传统机器学习模型如逻辑回归虽可解释,但性能往往逊色。这一矛盾的核心在于特征工程——现有方法存在三大瓶颈:忽视非线性空间转换、单次特征选择的不确定性,以及最小冗余最大相关(mRMR)等方法需要预设特征数量。如何通过自动化手段构建既精简又高性能的特征集,成为提升可解释模型实用价值的关键挑战。

针对这一科学问题,研究人员开发了基于非支配排序遗传算法(NSGA-II)的两级特征工程框架。该研究创新性地将bootstrap重采样与非线性变换相结合,在12个跨领域数据集上验证显示:采用中位数聚合策略时,平均F1分数提升1.6%的同时,特征数量锐减54.5%。相关成果发表于《Machine Learning with Applications》,并开源为Python库feature-gen。

关键技术包括:1) 对数值特征实施7种非线性变换(二次方、立方、对数等);2) 通过80:20分层划分创建训练/测试集;3) 微观阶段对3个bootstrap子集独立运行NSGA-II优化,目标函数为最大化F1分数和最小化特征数;4) 宏观阶段采用并集或中位数策略聚合特征;5) 最终使用逻辑回归、SVM和XGBoost组成的集成模型评估。

3.1. Feature transformation
通过引入对数、sigmoid等非线性变换,将原始特征空间从|F|扩展至|Fnumeric|+7×|Fnumeric|,使模型能捕捉深层数据模式。实验显示对数变换在并集策略中最常被选择(7.6%),而二次变换在中位数策略中占比最高(13.1%)。

3.4. Micro-step genetic algorithm
采用40个染色体、30代进化的NSGA-II框架,每个bootstrap子集独立优化。在Connect-4数据集中,该阶段使特征数从126降至36,同时保持分类性能(F1分数51.5 vs 原始54.2)。

5.1. Micro–macro approach performance
比较并集与中位数策略发现:并集策略在Mushrooms数据集获得28.8%的F1提升,但特征数仅降90.2%;而中位数策略在Breast Cancer数据实现95.2% F1分数时,特征数减少75%,印证其更好的平衡性。

5.1.2. Comparison with traditional methods
与ANOVA F-value等过滤方法相比,本方法在Spambase数据集的F1分数(94.4)显著优于mRMR-50%的93.2。图3显示其平均排名第一,证实遗传算法在多目标优化中的优势。

6. Discussion
该研究的核心价值在于:首次将非线性变换引入多目标特征选择框架,通过两级遗传算法实现"性能-简洁性"的帕累托优化。特别值得注意的是,在Wisconsin Breast Cancer数据中,仅使用6个特征(原31个)就达到97.1% F1分数,极大提升了模型可解释性。与Rostami等的工作相比,引入bootstrap使特征选择稳定性提高,而特征变换使平均45%的非线性特征被保留,这解释了其在复杂模式识别中的优势。

局限性在于当前仅适用于表格数据分类任务,且计算成本较高。未来可探索分布式计算架构和自适应变换选择机制。该研究为构建"高性能-可解释"的机器学习模型提供了方法论基础,其开源实现feature-gen将促进该技术在医疗诊断、风险预测等关键领域的应用落地。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号