
-
生物通官微
陪你抓住生命科技
跳动的脉搏
高效且有效的权重集成专家方法,用于多任务模型融合
《IEEE Transactions on Pattern Analysis and Machine Intelligence》:Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging
【字体: 大 中 小 】 时间:2026年02月10日 来源:IEEE Transactions on Pattern Analysis and Machine Intelligence 18.6
编辑推荐:
多任务学习(MTL)中提出基于关键模块识别的WEMoE与高效改进版E-WEMoE,通过动态混合专家模块实现参数优化,在保持性能的同时显著减少可训练参数和计算开销。
多任务学习(MTL)的目标是利用单个模型同时执行多个相关任务,从而促进任务之间的信息共享和知识迁移。近年来,深度学习的快速发展促使学习范式发生了转变,现在的主流范式侧重于使用强大的预训练模型对下游任务进行微调,而不是从头开始训练专家模型[2]、[3]、[4]、[5]、[6]、[7]。这种转变通常可以显著减少数据需求和计算资源。此外,深度学习社区的开放源代码精神鼓励开发者发布大量针对各种下游任务微调的专家模型。迄今为止,Hugging Face上已经提供了超过一百万种不同的模型
https://huggingface.co/models
。上述多种因素催生了一种新的MTL范式,使得可以直接合并多个独立训练的专家模型来创建多任务模型,而无需访问它们的原始训练数据[8]、[9]、[10]、[11]。