基于截断奇异值分解(TSVD)的双阶段噪声抑制框架EL-NRF提升回归任务中集成学习的泛化性能

【字体: 时间:2025年05月12日 来源:Expert Systems with Applications 7.5

编辑推荐:

  为解决集成学习中堆叠(stacking)模型对噪声敏感导致的泛化性能受限问题,研究人员开发了EL-NRF框架,通过TSVD(截断奇异值分解)技术分阶段消除特征空间和样本空间噪声。实验表明,该框架使预测性能提升1.65%-23.81%,显著增强了模型在真实世界回归任务中的鲁棒性。

  

在机器学习领域,集成学习通过组合多个基学习器的预测结果来提升模型性能,其中堆叠(stacking)方法因其采用元学习器优化预测组合而备受关注。然而,现有堆叠模型面临关键挑战:真实数据集中的噪声会显著降低模型泛化能力,尤其在回归任务中,冗余特征和异常样本会导致元学习器产生偏差。传统方法往往难以同时处理特征空间和样本空间的噪声干扰,这使得即使优秀的基学习器组合也可能表现不佳。

针对这一难题,研究人员提出了EL-NRF(Enhancing Ensemble Learning with Noise Reduction Framework)框架。该创新性工作通过两阶段噪声抑制策略:首先采用TSVD(Truncated Singular Value Decomposition)进行特征降维,保留最具信息量的奇异值以消除特征噪声;随后运用统计阈值法识别并剔除高残差样本。在快递时效预测和6个公开基准数据集上的测试显示,该框架使XGBoost、LightGBM等主流算法的集成模型预测误差降低最高达23.81%,即使在传统堆叠方法失效的场景下仍能稳定提升性能。这项发表于《Expert Systems with Applications》的研究,为提升现实场景中机器学习模型的可靠性提供了新思路。

关键技术包括:1) 基于TSVD的特征空间降维,通过截断次要奇异值消除冗余信息;2) 样本级噪声过滤,采用统计残差分析识别异常数据;3) 多算法集成框架,整合XGBoost、CatBoost等差异化的基学习器;4) 使用真实物流数据和UCI标准数据集进行验证。

【Related works】
现有研究表明,智能系统在处理高维非线性问题时表现出色,但噪声敏感性制约了其实际应用。传统降维方法如PCA难以兼顾特征选择与噪声抑制的双重需求。

【Basic concepts】
堆叠模型通过元学习器?(·)优化基学习器{f1,...,fM}的预测组合,而TSVD通过保留主奇异值实现数据去噪,二者结合为EL-NRF奠定了理论基础。

【Proposed Approach】
算法分两阶段:特征空间采用TSVD分解后截断次要成分,样本空间通过残差分布阈值τ剔除|ri|>τ的噪声样本,最终输入净化后的元数据集训练。

【Experimental Results】
在7个数据集上的四阶段实验显示:1) 基模型单独预测时XGBoost表现最佳;2) 传统堆叠模型EL-XGB反而不及基模型;3) 引入NRF后所有集成模型均显著优于基线,最大R2提升0.238。

【Conclusion】
EL-NRF通过系统性的噪声抑制机制,解决了集成学习在真实数据中的性能退化问题。其创新性在于将TSVD的数学严谨性与机器学习的实用性结合,为医疗预测、工业监测等噪声敏感领域的模型优化提供了普适性框架。作者Resul ?zdemir等强调,该方法特别适用于"小样本高噪声"的现实场景,未来可扩展至分类任务和在线学习系统。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号