
-
生物通官微
陪你抓住生命科技
跳动的脉搏
参数空间解耦策略:平衡学习可塑性与记忆稳定性的类增量学习新范式
【字体: 大 中 小 】 时间:2025年06月22日 来源:Neural Networks 6.0
编辑推荐:
【编辑推荐】针对持续学习(CL)中灾难性遗忘(CF)与新任务学习效率失衡的难题,本研究提出参数空间解耦策略BLPMS,通过划分任务通用/特异性参数空间并动态调控更新速率,结合基于原型网络的混合专家(MoE)模块,在5个文本分类数据集上实现新旧任务性能的协同优化,为智能系统的持续进化提供新思路。
在人工智能快速发展的今天,深度神经网络如同一位"偏科生"——当它专注于学习新知识时,往往会将旧技能抛诸脑后。这种现象被形象地称为"灾难性遗忘"(Catastrophic Forgetting, CF),成为制约持续学习(Continual Learning, CL)技术发展的主要瓶颈。现有的解决方案如同给记忆"打补丁":重播方法(Replay)通过反复温习旧知识防止遗忘,正则化方法(Regularization)则给重要参数"上锁",但这些方法往往顾此失彼,难以平衡新旧任务的表现。
河北某高校的研究团队在《Neural Networks》发表的研究中,创新性地将神经网络的参数空间视为"可重构的积木"。他们提出的BLPMS策略首次实现参数空间的动态解耦:将每个任务的子网络进一步划分为任务通用参数空间(如同共享的基础积木)和任务特异参数空间(专属装饰积木),通过精确控制两类参数的更新强度,既保证新知识的快速吸收,又守护旧记忆的稳固存储。更巧妙的是,团队借鉴生物学中的"模式识别"原理,设计出基于原型网络(Prototypical Network)的混合专家(MoE)系统,使模型能像经验丰富的医生会诊般,自动选择最合适的"专家子网络"处理输入数据。
关键技术包括:1)参数空间动态分解技术,通过重叠子网络识别实现通用/特异性参数划分;2)基于原型网络的MoE模块,利用特征距离度量实现专家网络动态选择;3)分类器微调策略,采用旧任务代表性数据调整决策边界。实验选用Yelp、DBPedia等5个文本分类数据集构建不同任务序列。
【方法创新】研究团队突破性地将彩票假设(Lottery Ticket Hypothesis)与持续学习结合,提出三层优化架构:首先通过参数隔离为每个任务保留"中奖子网络",继而对这些子网络进行二次解剖,分离出跨任务共享的通用参数和任务专属的特异参数。训练阶段采用差异化的学习率调控——对通用参数施加约束更新(更新系数k=0.6时最优),既注入新知识又保护旧记忆;同时冻结旧任务子网络,仅用少量典型样本微调分类器,确保决策边界适应参数更新。
【动态推理系统】针对传统参数隔离方法推理僵化的问题,研究团队开发的MoE模块创新性地将每个任务子网络及其分类器构建为独立"专家"。当新数据输入时,系统会计算其嵌入特征与各任务原型中心的距离,自动激活最相关的专家组合。这种设计省去了传统MoE复杂的门控网络训练,在AGNews数据集上使推理准确率提升12.7%。
【性能验证】在五数据集交叉实验中,BLPMS展现出全面优势:在SST-2→AGNews→Yelp的任务序列中,旧任务平均准确率保持在89.3%(较EXSSNET提升5.2%),新任务学习效率提高18.4%。消融实验证实通用参数空间是关键创新点,移除后模型在新任务上的F1值骤降23.8%。系数k的调优实验揭示0.6是最佳平衡点,此时模型如同走钢丝的杂技演员,完美保持新旧任务的性能均衡。
这项研究重新定义了持续学习的技术范式:将参数空间从"静态隔离"推向"动态解耦",通过数学上的正交化处理实现知识的高效沉淀。其创新价值不仅体现在文本分类领域,更为医疗诊断系统等需要持续进化的智能应用提供了可扩展框架。文末作者指出,未来可将该策略与Transformer架构结合,探索大规模预训练模型的高效持续学习路径。正如评审专家所言:"这项工作在记忆的稳固性与学习的灵活性之间,找到了那个黄金平衡点。"
生物通微信公众号
知名企业招聘