
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于深度强化学习的知识驱动多阶段差分进化超参数自适应框架研究
【字体: 大 中 小 】 时间:2025年06月17日 来源:Neurocomputing 5.5
编辑推荐:
为解决差分进化(DE)算法在超参数自适应控制中存在的阶段适应性不足问题,北京邮电大学团队提出DRL-HP-*框架,通过深度强化学习(DRL)实现多阶段超参数动态调控。该研究创新性地将进化过程建模为马尔可夫决策过程(MDP),设计五维状态空间与新型奖励函数,开发出DRL-HP-jSO等三种新算法。实验证明其在CEC'18基准测试中优于8种前沿方法,为智能优化算法设计提供了可扩展的强化学习融合范式。
在进化计算领域,差分进化(DE)算法因其简洁高效的特性成为解决复杂优化问题的重要工具。然而,传统DE算法面临一个关键瓶颈:其性能高度依赖突变算子、交叉算子及相关参数的动态调控。现有研究多采用试错法或基于深度强化学习(DRL)的逐代自适应控制,却鲜少关注进化过程不同阶段间的超参数适应性调整。这种局限性导致算法在应对多模态、高维优化问题时,难以实现全局最优与局部搜索的平衡。更棘手的是,传统手工设计的自适应机制(MAMs)仅能处理有限信息,当参数空间扩展时效率骤降;而纯DRL方法又存在计算复杂度高、与传统方法冲突等新问题。
北京邮电大学的研究团队在《Neurocomputing》发表的研究中,开创性地提出DRL-HP-*框架,将强化学习与进化算法的优势深度融合。该研究通过划分进化阶段、构建五维状态空间、设计算法性能关联的奖励函数,实现了超参数的阶段自适应调控。特别值得注意的是,团队开发的DRL-HP-jSO等三种新算法,在CEC'18基准测试中全面超越包括LDE、DEDQN在内的8种前沿方法,验证了框架的有效性。这项研究不仅解决了阶段适应性控制的难题,更开辟了"学习优化"(learn-to-optimize)研究的新路径。
研究主要采用三项关键技术:1) 马尔可夫决策过程(MDP)建模,将进化过程划分为等长阶段;2) 深度Q网络(DQN)构建,输入包含种群多样性、进度比率等五类状态特征;3) 新型复合奖励函数设计,整合基准算法在训练函数集上的综合表现。实验数据来源于CEC'13、CEC'14和CEC'18标准测试函数集。
Differential evolution
研究阐明了DE算法的核心组件,重点分析了current-to-pbest/1突变算子的优势,指出参数F和CR的动态控制是性能提升关键。通过对比JADE、SaDE等传统自适应机制,揭示其仅能实现逐代参数调整的局限性。
The proposed framework
创新性地提出阶段划分机制,每个阶段持续τ代。DRL智能体通过分析种群适应度分布、搜索进度等五类状态,动态调整超参数搜索空间。特别设计的奖励函数R=Σ(Δfi
/fbest
)有效平衡了探索与开发矛盾。
Motivation
通过控制变量实验证实,融合jSO等骨干算法与DRL的混合框架,既能保留试错法的高效性,又能实现传统方法难以完成的阶段超参数调控。DRL-HP-LSHADE-RSP的成功验证了框架对不同骨干算法的适配性。
Experimental studies
在30维CEC'18测试中,DRL-HP-jSO在16/30函数上显著优于对比算法。消融实验显示,五维状态空间使收敛速度提升23.7%,而新型奖励函数使跨函数泛化能力提高18.4%。时间成本分析表明框架仅增加7.2%计算开销。
Conclusion
该研究开创了多阶段DE超参数自适应控制的新范式。理论层面,提出的MDP建模方法为进化算法与机器学习的融合提供了新思路;实践层面,DRL-HP-*框架展现出优异的可扩展性,可轻松移植到其他进化算法。值得注意的是,研究揭示的"有限状态空间+精细奖励设计"原则,对降低DRL训练难度具有普适指导意义。未来工作可探索更复杂的神经网络架构与多目标优化场景的适配。
Mingzhang Han等研究者通过这项研究,成功搭建了连接传统进化计算与前沿深度强化学习的桥梁。其价值不仅体现在CEC基准测试的优异表现,更在于为智能优化算法的自适应控制提供了可复用的方法论框架,这对处理现实世界中的高维非线性优化问题具有重要应用前景。
生物通微信公众号
知名企业招聘