KMHBO:一种基于知识的多领域混合优化算法,用于高维多模态特征选择
《Expert Systems with Applications》:KMHBO: A knowledge-guided multi-niche hybrid breeding optimization algorithm for high-dimensional multimodal feature selection
【字体:
大
中
小
】
时间:2025年10月09日
来源:Expert Systems with Applications 7.5
编辑推荐:
高维多模态特征选择方法KMHBO提出双动态分组机制,通过知识引导优化算法生成多种结构差异大但分类性能等效的特征子集,解决传统方法在离散高维空间易陷入局部最优的问题,实验表明其分类准确率显著提升且能发现近50个等效解。
随着信息技术的迅速发展,高维数据在多个领域中得到了广泛应用,包括生物信息学、医学图像分析和文本挖掘。这些数据集通常包含成千上万的特征,其中相当一部分是冗余或无关的。这不仅增加了模型训练和推理过程中的计算负担,还带来了诸如维度灾难、模型过拟合和泛化性能下降等挑战。因此,从高维数据集中识别最具代表性和判别性的特征子集已成为机器学习和数据挖掘领域的一个关键问题。
特征选择(Feature Selection, FS)是一种常见的用于降维的技术。它通过去除冗余和无关的特征,同时保持分类性能,从而提高模型的有效性和可解释性。传统的特征选择方法主要分为三类:过滤法、包装法和嵌入法。过滤法使用统计度量独立评估特征,具有较高的计算效率,但忽略了特征之间的相互依赖关系。包装法则利用分类器性能来指导特征子集的选择,通常能获得更高的准确性,但需要付出更高的计算成本。嵌入法将特征选择直接融入模型训练过程中,如Lasso回归。然而,特征选择本质上是一个NP难的组合优化问题,传统的优化方法在处理高维特征空间时常常面临陷入局部最优和维度灾难等挑战。近年来,元启发式算法被广泛应用于特征选择任务,因其强大的全局搜索能力。常见的例子包括差分进化(Differential Evolution, DE)、粒子群优化(Particle Swarm Optimization, PSO)和蚁群优化(Ant Colony Optimization, ACO)。这些方法通过执行全局启发式搜索,有效克服了传统方法的局限性,以识别有潜力的特征子集。
然而,大多数现有的特征选择方法专注于识别单一最优子集,往往忽略了特征选择问题的固有多模态性质。在实际应用中,多个不同的特征子集可能会获得相似甚至等效的分类性能,这主要是由于特征之间的复杂相互关系。这些相互关系可以分为三类:1)冗余,即两个特征传递相似的判别信息,保留其中一个即可满足分类目标;2)交互,即两个特征共同对分类的贡献大于单独贡献;3)互补性,即特征捕捉数据的不同方面,可能独立支持分类。特别是在高维特征空间中,这种复杂的依赖关系导致多个特征子集能够达到相似的分类性能,使得特征选择成为一种自然的多模态优化问题(Multimodal Optimization Problem, MMOP)。
在现实应用中,如生物信息学和医学影像分析,识别多个等效特征子集的能力至关重要。例如,在生物信息学中,不同的基因子集可能解释相同的疾病机制。在医学影像分析中,替代特征可以提高设备和协议之间的鲁棒性,确保在不同临床环境中获得可靠的性能。Liu等人(2017)在Adeno数据集中观察到,两个不同的基因三元组M77836, J02854, T64297和H06524, H43887, U37019均实现了相同的完美分类准确率(1.000)。尽管这两个三元组不共享任何特征,但它们都涉及与腺癌相关的基因。
这些现实观察突显了在特征选择任务中发现多个多样且有效的解决方案的重要性和可行性。受此启发,近年来关于多模态优化的研究逐渐转向通过维护种群多样性、划分子种群或引入局部竞争策略来构建和优化小的生态位,以有效识别解空间中的多个最优解。然而,大多数现有研究基于连续多模态基准函数,如CEC2013中的函数,其中优化变量主要是连续的。这些方法主要关注在连续空间中设计多模态优化算法,使得它们难以直接应用于高维离散特征选择问题。虽然一些研究尝试将多模态优化引入特征选择,但大多数验证仅限于低维或中维数据集,缺乏对高维多模态特征选择的系统研究。
为了有效解决高维多模态特征选择问题,以下科学挑战仍然未被解决:1)在指数级搜索空间中实现收敛与解多样性之间的平衡。高维多模态特征选择不仅涉及搜索庞大的组合空间,还要求识别多个性能相似但结构差异显著的特征子集。这比传统的高维特征选择任务对算法的搜索效率和适应性提出了更高的要求;2)在离散空间中量化结构差异以实现多样性维护。现有的基于生态位的优化方法通常对参数设置高度敏感,并且在离散空间中表现不佳,导致不恰当的种群划分,这会损害解的多样性。此外,当前的档案更新机制常常未能充分维护解的多样性,特别是在保留具有更大结构差异的解方面;3)在不损害收敛性的前提下促进生态位间的知识转移。许多现有的多模态优化方法为每个生态位采用独立的进化策略,导致信息共享有限。这种限制可能导致重复迭代和整体搜索效率的下降。因此,使生态位之间能够有效进行信息交换仍然是一个关键未解决的问题。
混合育种优化(Hybrid Breeding Optimization, HBO)是一种新兴的元启发式优化算法。它模拟了三系杂交水稻的育种过程,具有强大的搜索能力、低参数依赖性和良好的可扩展性。与传统的元启发式算法如PSO和DE不同,后者通常依赖于单种群搜索机制,并且在高维或多模态搜索空间中容易过早收敛,HBO采用了一种多子群协同机制,涉及维持、恢复和不育系。这种机制自然地促进了解的多样性分布,并增强了子群之间的协作,从而提高了全局探索和局部利用能力。因此,HBO的优越可扩展性和多样性维护特性凸显了其在解决复杂多模态优化问题方面的巨大潜力。
基于此以及我们之前的研究成果,我们进一步提出了一种知识引导的多生态位混合育种优化(Knowledge-Guided Multi-Niche Hybrid Breeding Optimization, KMHBO)算法,将双动态分组机制引入HBO框架中。该算法的“知识引导”特性涉及利用历史更新信息和特征选择频率来指导搜索过程。这种知识有助于算法的决策,使其能够更有效地调整种群的搜索方向。该方法旨在生成多个高度判别且结构各异的特征子集,同时确保分类性能,从而满足现实应用中对多解方案的实际需求。本文的主要贡献总结如下:
1)我们提出了一个知识引导的混合育种优化(Knowledge-Guided Hybrid Breeding Optimization, KHBO)算法。该算法为不育、维持和恢复系分配不同的搜索角色,并根据个体的历史更新信息动态调整其种群规模。这种设计使得搜索行为能够实现自适应调节,从而有效提高算法在高维空间中的搜索效率和收敛速度。
2)我们设计了基于KHBO的多模态特征选择方法KMHBO。该方法能够同时探索多个等效解。KMHBO集成了双相似性引导的生态位划分策略和改进的外部档案更新机制,通过同时考虑个体间的适应度和结构相似性来构建多个相对独立的生态位。这种设计优先保留具有更高结构多样性的解,从而增强解集的多样性和代表性。
3)我们提出了一种基于特征选择频率的突变机制,用于对每个生态位中的最优和次优个体进行结构扰动,并引导它们向未探索的区域移动。这种机制增强了生态位之间的信息交换,有助于克服局部收敛,并促进额外的全局或局部最优解的发现。
本文的其余部分组织如下。第二部分回顾了多模态优化和多模态特征选择的相关研究。第三部分介绍了所提出的KMHBO算法的整体框架和关键机制。第四部分详细描述了实验设置。第五部分分析并比较了实验结果。第六部分总结了本文的研究,并提出了未来研究的方向。
在高维单模态特征选择任务中,KMHBO可以被视为一种单生态位方法,因为它在种群内部不执行生态位划分。因此,在每次独立运行中仅能得到一个解。表4展示了KMHBO在10个数据集上的实验结果,与其他算法进行了比较。在该表中,best表示最高分类准确率,worst表示最低准确率,mean表示平均准确率,std表示分类准确率的标准差。
为了更全面地评估KMHBO在高维特征选择和高维多模态特征选择任务中的有效性,本文设计了两组实验。这一部分详细描述了比较算法、实验数据集、参数敏感性分析和性能评估指标。通过这些实验,我们能够验证KMHBO在不同任务中的表现,并与现有方法进行对比,以评估其性能和潜力。
KMHBO的双动态分组机制是其核心创新之一。该机制在外部层面引入了双相似性引导的生态位划分策略,通过自适应调整每个生态位的规模和分布,以提高全局探索能力。在内部层面,种群被根据历史进化行为划分为三个子种群,即维持、恢复和不育子种群。每个子种群被分配特定的搜索任务,以增强局部利用能力并增加解之间的结构多样性。此外,KMHBO引入了一种基于特征选择频率的突变机制,以促进生态位之间的信息交换。同时,改进的外部档案更新机制确保了多样等效解的保留。这些机制共同作用,使得KMHBO能够在高维多模态特征选择任务中实现高效的搜索和多样解的生成。
在实际应用中,高维数据的处理对算法的性能提出了更高的要求。传统的特征选择方法在面对高维数据时,往往难以保持解的多样性,容易陷入局部最优,导致分类性能下降。而KMHBO通过双动态分组机制,能够在高维空间中实现对解的多样性和适应性的有效管理。这使得KMHBO不仅能够找到最优解,还能够识别多个结构不同但性能相似的特征子集,从而满足实际应用中对多解方案的需求。
在生物信息学和医学影像分析等实际应用中,高维数据的处理尤为重要。例如,在生物信息学中,基因数据通常具有极高的维度,且不同基因之间的相互关系复杂。在这种情况下,传统的特征选择方法往往难以有效识别最具代表性的基因子集,而KMHBO通过其独特的双动态分组机制,能够在保持解多样性的同时,提高搜索效率。这使得KMHBO在处理高维基因数据时表现出色,能够识别多个结构不同但性能相近的基因子集,从而为生物信息学研究提供更丰富的解。
在医学影像分析中,高维数据同样具有挑战性。医学图像通常包含大量特征,这些特征可能相互关联,导致传统的特征选择方法难以有效识别最具判别性的特征子集。KMHBO通过其双动态分组机制,能够自适应地调整生态位的规模和分布,提高全局探索能力。同时,通过将种群划分为维持、恢复和不育子种群,KMHBO能够在局部利用能力方面取得更好的效果,从而识别出多个结构不同但性能相近的特征子集,为医学影像分析提供更全面的解。
KMHBO的双动态分组机制不仅提高了搜索效率,还增强了解的多样性。在高维空间中,解的多样性是确保分类性能的重要因素。通过双相似性引导的生态位划分策略,KMHBO能够在保持解多样性的同时,提高搜索效率。这种策略能够根据特征之间的相似性动态调整生态位的规模和分布,使得算法能够在高维空间中有效地探索多个解。同时,通过将种群划分为三个子种群,KMHBO能够在局部利用能力方面取得更好的效果,从而提高整体搜索性能。
KMHBO的突变机制是其另一个重要创新。该机制基于特征选择频率,能够对每个生态位中的最优和次优个体进行结构扰动,并引导它们向未探索的区域移动。这种机制不仅有助于克服局部收敛,还能够促进额外的全局或局部最优解的发现。通过这种机制,KMHBO能够有效提高信息交换效率,从而增强搜索能力。
此外,KMHBO的外部档案更新机制也进行了改进。该机制能够确保多样等效解的保留,从而提高解的多样性。在高维空间中,解的多样性是分类性能的重要保障。通过改进的外部档案更新机制,KMHBO能够有效维护多样等效解,使得算法能够在高维空间中保持较高的搜索效率和分类性能。
综上所述,KMHBO通过其独特的双动态分组机制,能够在高维多模态特征选择任务中实现高效的搜索和多样解的生成。这种机制不仅提高了搜索效率,还增强了解的多样性,使得KMHBO在处理高维数据时表现出色。KMHBO在实际应用中的表现表明,其在生物信息学、医学影像分析和文本挖掘等领域具有广泛的应用前景。通过其独特的机制,KMHBO能够有效解决高维多模态特征选择任务中的关键挑战,如收敛与多样性之间的平衡、结构差异的量化以及生态位间的知识转移。
在实验部分,我们对KMHBO进行了详细的评估。实验数据集包括多个高维基准数据集,涵盖了不同的应用场景。通过将KMHBO与其他先进的特征选择方法进行比较,我们验证了其在分类准确率方面的优越性。实验结果表明,KMHBO在多个数据集上实现了更高的分类准确率,特别是在某些数据集上达到了完美的分类准确率。此外,KMHBO能够在固定档案规模下识别出近50个结构不同但功能等效的特征子集,这进一步证明了其在高维多模态特征选择任务中的强大潜力。
KMHBO的双动态分组机制使其能够在高维空间中保持较高的搜索效率和解的多样性。在外部层面,双相似性引导的生态位划分策略能够根据特征之间的相似性动态调整生态位的规模和分布,从而提高全局探索能力。在内部层面,种群被划分为三个子种群,即维持、恢复和不育子种群,每个子种群被分配特定的搜索任务,以增强局部利用能力。这种机制使得KMHBO能够在高维空间中实现高效的搜索,同时保持解的多样性,从而为多模态特征选择任务提供更全面的解决方案。
KMHBO的突变机制基于特征选择频率,能够对每个生态位中的最优和次优个体进行结构扰动,并引导它们向未探索的区域移动。这种机制不仅有助于克服局部收敛,还能够促进额外的全局或局部最优解的发现。通过这种机制,KMHBO能够有效提高信息交换效率,从而增强搜索能力。
KMHBO的外部档案更新机制也进行了改进,以确保多样等效解的保留。在高维空间中,解的多样性是分类性能的重要保障。通过改进的外部档案更新机制,KMHBO能够有效维护多样等效解,使得算法能够在高维空间中保持较高的搜索效率和分类性能。
综上所述,KMHBO通过其独特的双动态分组机制,能够在高维多模态特征选择任务中实现高效的搜索和多样解的生成。这种机制不仅提高了搜索效率,还增强了解的多样性,使得KMHBO在处理高维数据时表现出色。KMHBO在实际应用中的表现表明,其在生物信息学、医学影像分析和文本挖掘等领域具有广泛的应用前景。通过其独特的机制,KMHBO能够有效解决高维多模态特征选择任务中的关键挑战,如收敛与多样性之间的平衡、结构差异的量化以及生态位间的知识转移。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号