HyperMask:基于自适应超网络的动态掩码技术在持续学习中的应用与突破

【字体: 时间:2025年06月21日 来源:Neural Networks 6.0

编辑推荐:

  为解决人工神经网络在持续学习(CL)中面临的灾难性遗忘问题,研究人员提出HyperMask方法,通过超网络生成半二值化掩码动态筛选目标子网络,结合彩票假设(LTH)实现任务间知识保留。实验表明该方法在多个CL基准测试中达到竞争性结果,部分场景超越现有技术,为未知任务身份场景提供混合解决方案HyperMask1FeCAM。

  

在人工智能领域,持续学习(Continual Learning, CL)始终面临一个核心挑战:神经网络在序列任务训练中会迅速遗忘先前学到的知识,这种现象被称为灾难性遗忘(catastrophic forgetting)。尽管现有方法如超网络(hypernetwork)能生成任务专属权重来缓解该问题,但其产生的完全异构架构在实际应用中存在局限性。更棘手的是,彩票假设(Lottery Ticket Hypothesis, LTH)虽提出存在高性能稀疏子网络,但在CL场景中反复剪枝和重训练的策略效率低下。

针对这些瓶颈,来自波兰雅盖隆大学的研究团队在《Neural Networks》发表创新性研究,提出HyperMask模型。该方法创造性融合超网络与LTH范式,通过动态生成半二值化掩码来调制目标网络权重,形成任务自适应子网络。实验证明,HyperMask在Permuted MNIST、Split CIFAR-100等基准测试中超越WSN、HNET等基线方法,在Split CIFAR-100上取得最优成绩,其混合版本HyperMask1FeCAM更在未知任务身份场景展现强大适应性。

关键技术方法包括:1) 构建双网络架构(超网络+目标网络),支持目标网络固定(HyperMask-F)或可调(HyperMask-T)两种模式;2) 设计动态掩码生成机制,实现权重重要性动态调节;3) 结合FeCAM模块的Mahalanobis距离计算实现未知任务分类。实验使用标准CL数据集验证性能,通过反向迁移(BWT)指标量化遗忘程度。

研究结果揭示:
Continual learning. 在任务增量学习场景中,HyperMask通过掩码动态过滤机制显著降低任务间干扰。Split CIFAR-100实验显示其准确率较HNET提升4.2%,验证了子网络共享架构的有效性。

HyperMask: Adaptive Hypernetworks for Continual Learning. 超网络生成的连续值掩码既能完全屏蔽非相关权重(二值化部分),又能通过(0,1)区间权重调节保留跨任务共享特征。这种设计使单个目标网络能承载多个任务专属子网络。

Results for known task identity scenarios. 在Tiny ImageNet数据集上,HyperMask-T以78.3%准确率刷新记录,证明可训练目标网络模式对复杂任务的适应性。其固定网络版本HyperMask-F在计算效率上更具优势。

Backward transfer. BWT分析显示HyperMask遗忘率较WSN降低37%,证实掩码调制策略在知识保留方面的优势。这与超网络直接生成权重的HNET表现相当,但参数量减少60%。

Conclusion. 该研究突破性地将超网络从权重生成器拓展为动态掩码调制器,首次实现基于元模型的架构级CL解决方案。其重要意义在于:1) 为CL系统提供可扩展的参数共享框架;2) 通过FeCAM集成拓展至开放世界学习场景;3) 实验证实LTH在CL中的实用性,为稀疏化学习开辟新路径。研究团队特别指出,该方法在医疗影像连续诊断等需要长期知识积累的领域具有应用潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号