
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于强化学习与元知识迁移的竞争性多任务差分进化算法研究
【字体: 大 中 小 】 时间:2025年06月23日 来源:Knowledge-Based Systems 7.2
编辑推荐:
针对竞争性多任务优化(CMaTO)中主任务收敛停滞和知识迁移效率低的问题,研究团队提出融合Q学习和元知识迁移的差分进化算法(CMTDE-QL-MKT)。通过停滞检测算子动态切换主任务,采用强化学习筛选辅助任务,结合种群进化状态自适应调整元知识迁移半径。实验表明该算法在基准测试和无人机救灾任务分配中均优于现有方法,为复杂场景优化提供新范式。
在现实世界的复杂优化场景中,各类任务往往相互关联,但传统进化算法(Evolutionary Algorithms, EAs)独立求解的方式难以充分利用任务间的潜在关联。近年来兴起的多任务进化算法(Multi-task Evolutionary Algorithms, MTEAs)通过知识迁移实现协同优化,但当任务数量超过三个时(即Many-task Optimization, MaTO),现有算法在竞争性多任务优化(Competitive Many-task Optimization, CMaTO)场景中暴露出关键缺陷——主任务常因低效的知识迁移陷入长期停滞。这一问题在无人机救灾等时效性强的应用中可能造成严重后果。
针对这一挑战,由Yuxuan Song、Yue Xu等学者组成的研究团队在《Knowledge-Based Systems》发表研究,提出名为CMTDE-QL-MKT的创新算法。该工作以差分进化(Differential Evolution, DE)为基础框架,通过三重机制突破现有局限:首先设计停滞检测算子(SDMTS)动态切换主任务;其次引入Q学习智能选择辅助任务;最后创新性地通过种群质心距离定义进化状态,实现元知识迁移半径的自适应调整。
关键技术方法包括:1) 基于停滞计数阈值的主任务动态切换机制;2) 以Q学习构建状态-动作奖励模型,根据主任务收敛状态选择最优辅助任务;3) 通过最优解与种群质心的欧氏距离量化进化状态,指导元知识迁移;4) 采用三类CMaTO基准测试函数和实际无人机(UAV)救灾任务分配问题进行验证。
Stagnation detection-based main task selection
研究团队发现传统CMaTO算法因固定主任务选择易陷入局部最优。通过设计SDMTS算子,当主任务最优值停滞超过阈值时,随机切换其他任务作为临时主任务。该策略显著减少无效评估次数,使算法在基准测试中停滞周期缩短37.2%。
Q learning-based auxiliary task selection
为解决辅助任务选择盲目性问题,构建包含四种进化状态(快速收敛、缓慢收敛、短期停滞、长期停滞)的Q学习模型。实验显示该模块使主任务逃离局部最优的成功率提升58%,收敛速度加快21.4%。
Meta-knowledge-based knowledge transfer
创新性地提出通过最优解与种群质心的距离dc定义迁移半径R=αdc(α∈[0.1,0.3])。该机制在LDA-MFEA测试中表现出色,相比传统基因矩阵迁移策略,解质量提升29.8%。
Performance evaluation on benchmark functions
在CMaTO-1至CMaTO-3测试集上,CMTDE-QL-MKT的Hypervolume指标平均优于第二名算法DEORA 15.7%,特别在高维任务中优势更显著。
Application to UAV task allocation
在包含50架无人机、200个救援点的实际场景中,该算法任务完成率较传统方法提高32.1%,计算耗时减少41.3%,验证了其在实时决策中的优越性。
研究结论表明,CMTDE-QL-MKT通过智能任务切换和自适应知识迁移机制,有效解决了CMaTO领域三大核心挑战:1) 主任务长期停滞;2) 辅助任务选择低效;3) 知识迁移半径固定。该工作不仅为竞争性多任务优化提供了新方法论,其设计的Q学习决策框架和元知识迁移策略,对动态环境下的实时优化(如智能交通调度、应急资源分配)具有重要借鉴意义。未来研究可探索深度强化学习在任务选择中的应用,以及跨域元知识迁移的普适性理论。
生物通微信公众号
知名企业招聘