
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于模糊蕴涵粒度的多粒度特征选择方法研究及其在复杂数据分类中的应用
【字体: 大 中 小 】 时间:2025年06月16日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对复杂数据中冗余特征筛选难题,研究者提出基于模糊蕴涵粒度(FIGFS)的过滤式特征选择方法。通过构建模糊自适应邻域半径信息粒,建立多粒度模糊蕴涵信息测度,结合创新的粒度一致性指标,开发出兼容高低维数据的通用算法。实验表明该方法在24个公开数据集上优于6种前沿算法,为提升分类性能提供新思路。
在当今大数据时代,医疗健康、金融风控等领域产生的数据往往具有高维度、多尺度、混合类型的特点,这些复杂数据中普遍存在大量冗余特征,严重影响机器学习模型的训练效率和分类精度。传统粗糙集(RS)方法只能处理清晰边界的数据,而现实数据常伴随模糊性和不确定性。模糊粗糙集(FRS)虽能弥补这一缺陷,但在特征选择过程中仍面临粒度划分单一、相关性评估不全面等问题。
针对这些挑战,Shaowei Yan等研究者创新性地提出基于模糊蕴涵粒度的特征选择方法(FIGFS)。该方法首先通过样本分布状态自适应确定模糊邻域半径,构建多粒度信息粒,进而建立模糊蕴涵熵系列指标量化特征不确定性。研究团队还提出全局与局部双重视角的粒度一致性指标,结合多粒度分析构建新型特征评价函数,最终设计出适用于不同维度数据的通用算法。实验部分在24个基准数据集上与FuzzyDependency、mRMR等6种先进算法对比,验证了FIGFS在提升分类准确率方面的优势。相关成果发表于《Engineering Applications of Artificial Intelligence》,为复杂数据处理提供了更强大的特征工程工具。
关键技术包括:1)基于样本密度的模糊自适应邻域半径计算;2)多粒度模糊蕴涵信息熵构建;3)全局/局部粒度一致性指标设计;4)前向搜索特征选择算法实现。
【Multi-granularity uncertainty measures】章节提出通过模糊蕴涵算子构建信息粒,建立包含模糊蕴涵组合熵、粒度熵在内的多尺度不确定性测度体系,解决了传统熵度量依赖对数运算的局限。
【Granularity consistency】部分创新性地定义全局一致性反映特征-决策整体关联度,局部一致性捕捉同类样本紧密度,二者结合可全面评估特征重要性。
【Experiment analysis】显示FIGFS在UCI数据集上平均分类准确率达87.3%,较次优算法提升4.2%。参数敏感性实验表明当邻域半径阈值ε∈[0.6,0.8]时性能最稳定。
结论表明,FIGFS方法通过模糊自适应粒化和多粒度分析,有效平衡了特征相关性与冗余性评估。其优势在于:1)无需预设离散化阈值;2)兼容数值型/标称型混合数据;3)计算复杂度随维度增长呈线性变化。该研究不仅推动了FRS理论发展,更为基因表达分析、医学影像识别等需要处理高维异构数据的领域提供了实用方法。未来可探索在半监督学习框架下的扩展应用,以应对标签缺失的实际场景。
生物通微信公众号
知名企业招聘