基于替代辅助的生态位分化差分进化算法在卷积神经网络中超参数优化中的应用
《Swarm and Evolutionary Computation》:Surrogate-Assisted Niching Differential Evolution for hyperparameter optimization in Convolutional Neural Networks
【字体:
大
中
小
】
时间:2025年10月11日
来源:Swarm and Evolutionary Computation 8.5
编辑推荐:
超参数优化在深度CNN中至关重要,但面临高维、多模态、计算成本高和混合变量等挑战。本文提出SANDE算法,通过双空间K-Medoids聚类划分搜索空间,结合代理辅助差分进化优化和动态资源分配策略,有效提升优化效率。实验表明,SANDE在ResNet模型分类任务中,以有限计算资源达到与传统人工设计及优化方法相当的性能。
在深度学习领域,卷积神经网络(Convolutional Neural Networks, CNNs)因其强大的特征提取能力和广泛的应用场景,已成为研究的热点。然而,CNNs的性能不仅依赖于其结构设计,还受到超参数配置的显著影响。超参数优化作为CNNs优化过程中的关键环节,旨在通过调整诸如卷积核数量、激活函数类型、网络深度等关键参数,进一步提升模型的泛化能力和实际应用效果。尽管如此,超参数优化问题本身却面临诸多挑战,包括高维度、多模态、计算成本高昂以及变量混合性等,这些特性对优化算法提出了更高的要求。
当前,针对CNNs的优化方法主要分为两大类:一种是网络结构搜索(architecture search),另一种是超参数优化(hyperparameter optimization)。网络结构搜索方法通常从头开始构建CNN模型,通过基本层或网络块作为基本单元,利用深度学习技术进行自动化设计。例如,Zoph等人通过递归神经网络作为生成器,结合强化学习对生成的CNN模型进行优化;Real等人则提出了大规模进化框架,通过图结构表示CNN的DNA,并引入了多种变异操作来生成子代网络结构。然而,这类方法在面对复杂度较高的CNN模型时,往往需要较大的计算资源和较长的训练时间,且难以保证优化的效率和稳定性。
相比之下,超参数优化则更倾向于在已有的高效CNN模型基础上,对其中的关键超参数进行调整。例如,Samir等人使用了jSO算法对预定义的CNN模型进行优化,以实现对心脏病预测的高精度;Wang等人则设计了一个集成CNN和长短时记忆网络的分类器,并利用粒子群优化算法对超参数进行优化。这种方法的优势在于,它能够充分利用已有的网络结构,避免从头设计网络所带来的高昂成本,同时通过精细调整超参数来提升模型的性能。然而,由于CNNs的超参数优化问题通常具有高维度和多模态的特性,现有的优化方法在面对复杂场景时,往往难以有效搜索最优解,且存在计算资源浪费的问题。
为了解决上述问题,本文提出了一种基于代理模型的尼希技术差分进化算法(Surrogate-Assisted Niching Differential Evolution, SANDE),该算法旨在通过空间划分、代理模型辅助优化和动态资源分配策略,提升CNNs超参数优化的效率和稳定性。SANDE的核心思想是将复杂的超参数空间划分为多个更简单且更具潜力的子区域,从而降低优化的复杂度并保持搜索的多样性。这一过程通过一种名为Dual-Space K-Medoids(DSKM)的尼希方法实现,该方法结合了决策空间和目标空间的信息,利用K-medoids聚类技术对搜索空间进行划分,以捕捉多模态特性并实现自适应区域界定。通过这种方式,每个子区域都有可能包含一个最优或次优的超参数配置,从而为后续的优化提供更有针对性的方向。
在子区域划分完成后,SANDE引入了一种基于代理模型的集成差分进化算法(Surrogate-Assisted Integrated Differential Evolution, SA-IDE),该算法通过结合混合差分进化(Hybrid Differential Evolution, DEmv)作为基础优化器,以及代理模型作为目标函数,对每个子区域进行高效搜索。代理模型的作用在于减少每次超参数调整后需要进行的模型训练时间,从而提高整体优化效率。而混合差分进化算法则能够处理超参数优化中的变量混合性问题,即同时存在离散布和分类变量的优化需求。此外,SANDE还引入了一种信息集成策略,该策略通过聚合种群中的优势基因,提高优化过程的鲁棒性和收敛速度,确保算法在复杂的搜索空间中能够找到更优的解。
为了进一步提升计算资源的利用率,SANDE还设计了一种动态计算资源分配策略(Dynamic Computational Resource Allocation, DCRA)。该策略通过量化子区域的历史优化潜力,动态地将计算资源分配到不同子区域,从而实现资源的最优配置。这种动态分配机制使得算法在面对不同复杂度的子区域时,能够根据其优化潜力合理调整资源投入,避免资源浪费并提高整体优化效率。
为了验证SANDE的有效性,本文在三个广泛使用的图像分类数据集上进行了大量实验。实验结果表明,SANDE能够在有限的计算资源下,实现与29种当前最先进的手动设计和优化方法相当的分类准确率。这表明,SANDE不仅能够在计算效率上有所突破,同时在优化效果上也具有竞争力。此外,本文还对SANDE在实际应用中的表现进行了探讨,例如在数字门牌识别任务中,利用Street View House Numbers(SVHN)数据集进行实验,该数据集包含了从Google街景图像中提取的门牌数字,具有较高的噪声和干扰,能够有效评估SANDE在复杂环境下的优化能力。
综上所述,本文提出的SANDE算法在CNNs超参数优化领域具有重要的研究价值。该算法通过引入尼希技术、代理模型辅助优化和动态资源分配策略,有效应对了高维度、多模态、计算成本高昂以及变量混合性等挑战。实验结果表明,SANDE能够在有限的计算资源下,实现与当前主流方法相当的优化效果,同时保持较高的搜索效率和稳定性。这些成果为未来CNNs的超参数优化研究提供了新的思路和方法,也为实际应用中的模型优化提供了有力的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号