
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于实例选择的高维数据分类新型过滤方法研究
【字体: 大 中 小 】 时间:2025年06月16日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对高维数据分类中噪声实例干扰特征排序准确性的问题,研究人员提出一种结合模糊C均值(FCM)聚类和遗传算法(GA)的实例选择方法RIS。该方法通过剔除噪声实例提升特征相关性评估,在模拟和真实数据集测试中均取得最高分类准确率,为人工智能领域特征选择与数据预处理提供了创新解决方案。
在人工智能和机器学习领域,高维数据分类一直面临严峻挑战。随着数据维度不断攀升,噪声实例对特征相关性评估的干扰日益凸显。传统特征选择方法如过滤法(Filter)、包装法(Wrapper)在处理混合类型特征时,往往因噪声实例存在导致排序偏差,进而影响后续建模效果。更棘手的是,当数据集规模扩大时,遗传算法(GA)等实例选择技术的收敛速度显著下降。这些问题严重制约了高维数据分析的准确性和效率,亟需开发新型特征选择框架。
为攻克这些难题,研究人员开发了基于实例选择的特征排序方法RIS。该方法创新性地将模糊C均值(FCM)聚类与遗传算法相结合,通过智能筛选实例子集来消除噪声干扰。研究团队在《Engineering Applications of Artificial Intelligence》发表的论文中,采用三大关键技术:1)基于预序理论(preordonnances)的混合特征相关性度量;2)模糊聚类分区解决边界效应;3)集成投票机制融合多分区结果。实验使用3组模拟数据和9个公开数据集,通过支持向量机(SVM)、朴素贝叶斯(Naive Bayes)和随机森林(Random Forest)三类分类器验证效果。
Feature selection
研究系统梳理了特征选择技术的发展脉络,指出单变量过滤法(Univariate Filter)在多类型特征处理上的局限性。通过对比互信息(Mutual Information)、卡方统计(Chi-square)等方法,强调需要开发适应混合特征的新型评估指标。
RIS approach
提出基于实例对分析的创新相关性度量框架。核心是通过FCM算法将数据划分为柔性子集,允许边界实例同时属于多个簇,有效缓解传统k-means的刚性分区问题。每个子集内采用GA进行实例选择,染色体编码方案将实例选择决策转化为二进制向量优化问题。
Proposed approach
研究证实,当实例规模超过500时,标准GA的收敛时间呈指数增长。通过模糊分区将染色体长度缩减至原1/10,配合集成投票机制,使算法复杂度从O(N2)降至O(kn2)(k为簇数)。在模拟数据中,RIS实现100%相关特征选择率,较传统方法提升23%。
Parameter settings
R语言实现的实验显示,在结肠癌基因数据集上,RIS使SVM分类准确率从82.4%提升至91.7%。特别值得注意的是,当特征数超过实例数100倍时,RIS仍保持87.3%的平均准确率,显著优于对比方法。
Conclusion
该研究突破性地解决了高维数据中噪声实例干扰和算法扩展性两大瓶颈。RIS的创新性体现在:1)首个支持数值型、类别型、序数型等混合特征统一评估的过滤法;2)通过模糊分区和集成学习将GA计算复杂度降低一个数量级;3)在样本量不足场景下仍保持稳定性能。Basma El Mourtji等作者的工作为医疗健康领域的基因选择、医学影像分析等高维数据处理提供了通用框架,其提出的"相关性-实例选择"协同优化思路,对推动人工智能特征工程发展具有里程碑意义。
生物通微信公众号
知名企业招聘