基于双网络架构的嵌入式特征选择方法DNFS:实现非线性依赖下的自主特征优选

【字体: 时间:2025年06月19日 来源:Machine Learning with Applications

编辑推荐:

  本研究针对特征选择中存在的非线性依赖、冗余特征和超参数优化难题,提出了一种新型双网络架构DNFS。该方法通过任务模型和选择模型的协同训练,生成准二元掩码实现特征筛选,在合成和基准数据集上验证了其优越性,可自主确定相关特征数量,仅需优化单一超参数λ,在保持模型性能的同时实现90%以上的特征缩减,为高维数据分析提供了高效解决方案。

  

在机器学习领域,特征选择(Feature Selection)始终是提升模型性能的关键环节。随着数据复杂度的爆炸式增长,传统方法在应对非线性特征交互、冗余信息识别和超参数敏感等问题时显得力不从心。现有技术如SHAP值分析、随机门控(STG)等方法或受限于计算成本,或需要预先设定特征数量,难以适应实际应用需求。这种困境在医疗影像分析、基因组学等高维数据场景中尤为突出,亟需开发更智能的特征选择方案。

针对这些挑战,国外研究人员开发了名为DNFS(Dual-Network Feature Selection)的创新方法。这项发表在《Machine Learning with Applications》的研究,通过巧妙设计的双网络架构实现了突破。该系统由任务模型Π和选择模型Γ组成,前者专注预测任务,后者生成准二元掩码m∈[0,1]n
进行特征筛选。关键创新在于将特征选择转化为优化问题,通过损失函数Lsel
=λ?Ltask
+p(m)实现自动平衡,其中λ是控制稀疏度的唯一关键超参数。

研究采用多项关键技术:1)双网络协同训练机制,使用Glorot均匀初始化;2)Hadamard乘积实现特征掩码;3)基于移动平均的特征选择判定算法;4)跨验证集性能监控的早停策略。实验数据来自合成数据集(含线性/非线性依赖)和MNIST、Ames住房等基准数据集。

【Fundamentals of dual-net feature selection】部分揭示了DNFS的核心机制。选择模型Γ生成全局掩码,通过Hadamard乘积?创建特征子集Dm
=D?m。在合成数据测试中,DNFS对线性回归任务实现100%最优子集选择,非线性的分类任务也达到93%的成功率,显著优于传统方法。

【Empirical evaluation】展示了在MNIST数据集上的卓越表现。DNFS在保留95.5%分类准确率的同时,将特征数量从784维缩减至50±2个,降维幅度达94%。更令人印象深刻的是,在Ames住房价格预测任务中,仅使用15%的特征(20±3个)反而使MAE从17000±300美元降至15000±500美元,性能提升12%。

【Comparative results】部分通过横向对比突显优势。与STG、FIDL等方法相比,DNFS在非线性和高维数据中表现更稳定。特别是在Basehock数据集上,DNFS以95%准确率超越其他方法,而CA和SHAP等方法则因固定特征数量限制而表现波动。

【The impact of λ】深入分析了关键超参数的影响。研究推导出λ的理论下限公式(7),实证显示计算值λcalc
基本落在收敛区间内。例如线性回归任务中,当λ≥1/(0.1?Ynorm
)时,系统能稳定输出最优特征子集。

讨论部分强调了三大科学意义:首先,DNFS首次实现了在未知特征数量前提下的自主选择,解决了实际应用中的关键瓶颈;其次,该方法对非线性依赖具有独特识别能力,这在基因组学等复杂数据分析中价值显著;最后,通过理论推导简化了超参数优化,使λ成为唯一需要调整的参数。

这项研究为高维数据挖掘提供了新范式。其双网络架构设计思想可扩展至其他深度学习场景,而自主特征选择机制则为开发更智能的AI系统铺平了道路。未来研究可探索该框架在卷积神经网络等复杂架构中的应用潜力,以及在医疗诊断等关键领域的实践价值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号