基于特征分组与改进混合育种优化算法(Improved Hybrid Breeding Optimization, HBO)结合特征成组策略的高维特征选择方法(Feature Grouping and Improved Hybrid Breeding Optimization framework, FGIHBO)

《Biomimetics》:High-Dimensional Feature Selection Using Improved Hybrid Breeding Optimization Algorithm with Feature Grouping

【字体: 时间:2026年06月09日 来源:Biomimetics 3.9

编辑推荐:

  摘要:特征选择(Feature Selection, FS)对于提升高维生物医学数据的分类性能至关重要,然而传统元启发式算法常面临早熟收敛(Premature Convergence)及种群多样性丧失的问题。针对上述问题,研究人员提出了一种基于特征分组与改进混

  
摘要:特征选择(Feature Selection, FS)对于提升高维生物医学数据的分类性能至关重要,然而传统元启发式算法常面临早熟收敛(Premature Convergence)及种群多样性丧失的问题。针对上述问题,研究人员提出了一种基于特征分组与改进混合育种优化框架(Feature Grouping and Improved Hybrid Breeding Optimization framework, FGIHBO)。首先,利用最大相关最小冗余(Maximum Relevance Minimum Redundancy, mRMR)准则与对称不确定性(Symmetric Uncertainty, SU)分析对原始特征空间进行层次化划分,以缓解维度灾难(Curse of Dimensionality)。随后,通过融入灰狼优化器(Grey Wolf Optimizer, GWO)引导机制及基于香农熵(Shannon Entropy)的自适应模拟退火(Simulated Annealing, SA)机制,开发了多策略协同改进混合育种优化算法(Multi-Strategy Synergistic Improved Hybrid Breeding Optimization, MSIHBO),以平衡全局探索(Exploration)与局部开发(Exploitation)。CEC2022基准测试结果表明MSIHBO在各类问题上均具鲁棒优化性能。此外,在11个高维生物医学数据集上的评估显示FGIHBO的平均分类准确率介于92.77%至97.66%之间。相较于代表性算法——包括多策略改进灰狼优化器(Multi-strategy Improved Grey Wolf Optimizer, MIGWO)、基于集聚策略的混合鲸鱼优化算法(Hybrid Whale Optimization Algorithm based on Gathering strategy, HWOAG)、动态乌鸦搜索算法(Dynamic Crow Search Algorithm, DCSA)、标准GWO、标准混合育种优化算法(Hybrid Breeding Optimization, HBO)、基于莱维飞行与精英反向学习策略的HBO(Hybrid Breeding Optimization based on Lévy flight and Elite Opposition-Based Learning strategy, LEHBO)及MSIHBO——所提框架使平均分类准确率提升了1.47%–27.46%,其中相对于HWOAG在数据集D10上增益最大。这些结果证实了该框架在高维生物医学特征选择任务中的有效性、鲁棒性及可扩展性。
论文解读:基于特征分组与改进混合育种优化算法的高维特征选择研究
该论文发表于《Biomimetics》。随着网络安全、生物医学及工业监测领域数据规模的爆炸式增长,高维数据常含有大量冗余特征与噪声,导致模型构建复杂度升高且泛化能力下降,并引发维度灾难(Curse of Dimensionality)。特征选择(Feature Selection, FS)旨在从原始特征空间中隔离出与目标任务高度相关的子集,但在高维场景下解空间呈指数级膨胀,传统确定性搜索难以求解。元启发式优化算法虽被广泛用于FS,但在高维空间中通常忽视特征间内在相关性及模块化组结构,且难以维持种群多样性,易陷入局部最优及搜索效率骤降。为突破上述瓶颈,研究人员提出了融合外部特征空间解耦与内部优化机制升级的FGIHBO(Feature Grouping and Improved Hybrid Breeding Optimization framework)框架,通过信息论指标进行特征分组降维,并结合多策略协同改进的混合育种优化算法(Multi-Strategy Synergistic Improved Hybrid Breeding Optimization, MSIHBO)进行子集搜索。实验验证表明该方法在11个高维生物医学微阵列数据集上显著优于对照算法,有效缓解了维度灾难并提升了分类精度与稳定性。
研究人员采用的主要关键技术方法包括:(1)基于最大相关最小冗余(Maximum Relevance Minimum Redundancy, mRMR)准则的初始特征过滤,剔除无关噪声;(2)基于对称不确定性(Symmetric Uncertainty, SU)值与桶抽样(Bucket Sampling)的结构化特征分组(Feature Grouping, FG),将高维空间划分为若干低冗余子空间并按Softmax分配计算资源;(3)采用拉丁超立方抽样(Latin Hypercube Sampling, LHS)与精英反向学习(Elite Opposition-Based Learning, EOBL)初始化种群,引入轮盘赌选择实现动态种群划分(Maintainer/Restorer/Sterile line);(4)在三线杂交育种优化算法(Hybrid Breeding Optimization, HBO)基础上,维护系(Maintainer line)引入GWOα参数非线性衰减的灰狼围攻引导更新,不育系(Sterile line)引入基于种群香农熵自适应控温的模拟退火Metropolis接受准则,保持系(Restorer line)保留标准自交与重置机制;(5)采用Sigmoid概率映射将连续位置离散化为二进制特征掩码,以K最近邻(K-Nearest Neighbors, KNN)分类器交叉验证准确率为核心结合特征数惩罚构造适应度函数;(6)在11个基因表达谱数据集上经5折交叉验证及Friedman与Nemenyi统计检验进行性能评估。
研究结果:
5.1. Experimental Setup and Evaluation Metrics
研究人员选用11个高维生物医学微阵列数据集(D1–D11),样本少、特征维度2000至12533不等。设定总体群规模N=30,最大迭代次数Tmax=200,mRMR保留特征比例为原维度的30%(γ=0.3),KNN中k=3。通过两阶段实验设计确定最优分组粒度M=5(FGIHBOM=5)并在未见数据集上横向测试。
5.2. Parameter Sensitivity and Robustness Analysis
通过对适应度权重因子β、保留特征比γ及模拟退火初始温度T的单因素敏感性分析,确定β=0.9可在保证分类性能的同时避免极端加权导致冗余基因保留;γ=0.3在信息保留与搜索效率间取得最佳平衡;T=50使早期探索与后期开发达到最优均衡,过高或过低均致性能下降。
5.3. General Optimization Performance Evaluation
研究人员在CEC2022基准函数套件上将MSIHBO与CMp-DE、HEST-HEO、LEA、PSO、GWO、HBO、LEHBO等算法对比。MSIHBO在多模态及组合函数上求得更优解精度且标准差较小,收敛曲线显示其早期保持强探索能力、后期借SA与GWO引导强化开发,Friedman检验平均排名3.167且与排名第一的MS-TSA无显著差异,证明MSIHBO具备作为FGIHBO核心优化器的鲁棒性。
5.4. Verification of Feature Grouping Mechanism and Optimization of Parameter Granularity
在D1–D4上对比MSIHBO、LEHBO及其不同分组数M的FG变体。FGIHBO系列各项指标均优于未分组MSIHBO及传统CCIHBO系列,M=5时综合性能最优,分组后算法初值更高、收敛更快且最终适应度显著提升,证实特征分组有效降低搜索难度并增强多样性,传统分组策略在高维FS中不够稳定。
5.5. Comprehensive Performance Comparative Analysis in Complex High-Dimensional Scenarios
在D5–D11上以M=5的FGIHBO与MIGWO、HWOAG、DCSA、SA、GWO、HBO、LEHBO对比。FGIHBO平均分类准确率92.77%–97.66%,较对照算法提升1.47%–27.46%。收敛曲线显示FGIHBO具更高起始点与持续逃逸局部最优能力,箱线图显示其准确率分布最集中、中位数最高,证明其在超高维场景下兼具高精度与高稳定性。
5.6. Ablation Study
去除mRMR预过滤导致准确率降幅最大(D1由97.25%降至75.38%),验证冗余剔除之关键;去除特征分组或动态划分亦致明显退化;去除LHS+EOBL初始化使准确率降约4%–9%;去除GWO引导或SA机制均造成显著损失,尤以去除SA后D4降至77.78%,证实各模块协同贡献于最终性能。
5.7. Statistical Significance Analysis
Friedman检验结合Nemenyi事后检验显示,在D1–D4上FGIHBOM=5平均秩1.500为最优;在D5–D11上平均秩1.000,与次优MSIHBO(2.143)及HWOAG、SA、DCSA等差异具统计学意义,验证了框架性能提升的显著性。
讨论与结论翻译:
为解决高维生物医学数据特征选择中频现的维度灾难与优化停滞问题,本文提出了一种基于特征分组与改进混合育种优化的降维方法。研究通过mRMR与SU准则实现了高维搜索空间的低耦合重构,并创新性地融合了灰狼优化器之围攻引导策略与基于香农熵的自适应退火机制,完成了底层进化优化器的多策略升级。在D1–D11数据集上的系统验证表明,该方法有效规避了特征空间指数膨胀带来的计算瓶颈,在确保极高分类准确率的同时展现出强大的可扩展性与鲁棒性。尽管具有上述优势,所提方法依赖基于KNN的封装式(Wrapper)评估范式,在处理超大规模数据集时仍存在计算瓶颈。因此未来研究将聚焦三个方向拓展本工作:第一,引入过滤-封装混合架构或代理辅助评估模型以部分替代昂贵精确评估,减轻计算负担;第二,消除适应度函数中经验权重参数的依赖,拟基于帕累托支配(Pareto Dominance)开发多目标变体,为决策者提供多样的非支配最优折衷解;第三,探索基于SU的桶分组机制在其他复杂领域(如具内在空间或语义关联的非结构化图像与文本挖掘)中的适应性。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号