高效且有效的权重集成专家方法,用于多任务模型融合

《IEEE Transactions on Pattern Analysis and Machine Intelligence》:Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging

【字体: 时间:2026年02月10日 来源:IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6

编辑推荐:

  多任务学习(MTL)中提出基于关键模块识别的WEMoE与高效改进版E-WEMoE,通过动态混合专家模块实现参数优化,在保持性能的同时显著减少可训练参数和计算开销。

  

摘要:

多任务学习(MTL)利用共享模型来完成多个任务并促进知识迁移。最近关于基于任务算术的MTL的研究表明,合并独立微调模型的参数可以有效实现MTL。然而,现有的合并方法主要在原始模型参数空间内寻找静态最优解,这通常会导致性能下降,因为任务之间存在固有的多样性以及潜在的干扰。为了解决这一挑战,本文提出了一种基于权重集成的专家混合(WEMoE)方法来进行多任务模型合并。具体来说,我们首先通过分析基于Transformer的模型在微调前后核心模块的参数变化来识别关键(或敏感)模块。然后,WEMoE静态合并非关键模块,同时将关键模块转换为专家混合(MoE)结构。在推理过程中,根据输入样本动态合并MoE中的专家模块,从而实现更加灵活和适应性的合并方式。在WEMoE的基础上,我们进一步引入了一种高效且有效的WEMoE(E-WEMoE)方法,其核心机制是消除WEMoE中非必要的元素,并在多个MoE模块之间实现共享路由,从而显著减少了可训练参数的数量、总参数量以及合并模型的计算开销。在各种架构和任务上的实验结果表明,WEMoE和E-WEMoE在MTL性能、泛化能力和鲁棒性方面均优于现有的最先进(SOTA)模型合并方法。

引言

多任务学习(MTL)的目标是利用单个模型同时执行多个相关任务,从而促进任务之间的信息共享和知识迁移。近年来,深度学习的快速发展促使学习范式发生了转变,现在的主流范式侧重于使用强大的预训练模型对下游任务进行微调,而不是从头开始训练专家模型[2]、[3]、[4]、[5]、[6]、[7]。这种转变通常可以显著减少数据需求和计算资源。此外,深度学习社区的开放源代码精神鼓励开发者发布大量针对各种下游任务微调的专家模型。迄今为止,Hugging Face上已经提供了超过一百万种不同的模型

https://huggingface.co/models

。上述多种因素催生了一种新的MTL范式,使得可以直接合并多个独立训练的专家模型来创建多任务模型,而无需访问它们的原始训练数据[8]、[9]、[10]、[11]。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号