基于改进粒球模型与属性显著性的高维数据特征选择算法研究

【字体: 时间:2025年07月26日 来源:Neurocomputing 5.5

编辑推荐:

  针对高维数据下传统粒球邻域粗糙集(GBNRS)算法计算复杂度高、粒球分裂不稳定等问题,南京审计大学团队提出融合分类显著性阈值δ的自适应粒球生成算法(GBNAS),通过动态调整M-means聚类数并引入属性重要性评估机制,在12个真实数据集上验证其较经典算法提升分类精度15%-22%,为大数据特征选择提供新范式。

  

在大数据时代,高维数据的特征选择如同沙里淘金——如何在保留关键信息的同时剔除冗余特征,始终是机器学习领域的核心挑战。传统粗糙集理论虽能处理离散数据,但面对连续数据时往往力不从心。尽管后续发展的邻域粗糙集(NRS)和粒球邻域粗糙集(GBNRS)通过引入邻域半径和粒球划分改善了处理能力,但依然存在三个致命缺陷:固定粒度的2-means分裂产生大量不稳定微小粒球、M-means聚类忽视少数类样本导致分类边界模糊、以及仅依赖正域变化评估属性重要性可能产生冗余特征集。这些问题严重制约了算法在高维场景下的实用性和鲁棒性。

针对这些瓶颈,南京审计大学计算机学院的研究团队在《Neurocomputing》发表的研究中,创新性地提出粒球邻域属性显著性模型(GBNAS)。该研究通过构建分类显著性阈值δ驱动的自适应粒球生成算法,将平均纯度指标与属性重要性评估相结合,实现了特征选择精度与效率的双重突破。实验证明,该算法在KNN和BP神经网络分类器上分别将高维数据处理效率提升3-5倍,同时维持89%以上的分类准确率。

关键技术方法包括:1)基于δ阈值的动态M-means粒球分裂算法,通过样本类别比例约束避免过分割;2)融合正域变化与粒球平均纯度的双重评估体系;3)采用UCI标准数据集和实际金融数据验证,对比8种主流算法。

【Extended definitions of GB model】
研究首次提出分类显著性阈值δ的定义,要求每个粒球中各类样本比例必须高于δ。通过动态调整M-means的聚类数k=ceil(1/δ),确保少数类样本不被过度分割。实验显示当δ=0.15时,粒球数量较传统方法减少37%,而分类边界清晰度提升22%。

【Algorithm design】
设计的粒球生成算法包含两阶段:初始全数据集粒球构建,以及基于纯度-半径-样本数三重判据的分裂控制。当粒球纯度低于0.85或半径超过平均距离2σ时触发自适应分裂,相比固定k值的GBNRS,算法稳定性指标提升41%。

【Experimental results】
在12个UCI数据集测试中,GBNAS的平均运行时间仅为GBNRS的28%,而分类精度在KNN分类器上达到92.3±1.7%。特别在WDBC等高维医学数据上,特征维度从30降至8-12维时仍保持94%的AUC值。

该研究的突破性在于:1)创建了δ阈值与M-means的动态耦合机制,解决了粒球质量不可控的难题;2)首次将属性重要性量化为对分类边界的贡献度,使特征选择更具解释性;3)提出的GBNAS框架可扩展至多标记学习等场景。正如论文结论所述,这项工作"为粗糙集理论处理现实世界复杂数据提供了新的方法论基础",其价值不仅体现在算法性能提升,更在于开创了粒球质量可量化评估的新范式。未来在医疗影像分析、金融风控等领域具有广阔应用前景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号