重新思考增量学习中的Softmax函数:解决非可识别性问题的新策略

【字体: 时间:2025年08月23日 来源:Neural Networks 6.3

编辑推荐:

  这篇论文针对增量学习(IL)中的灾难性遗忘问题,提出了突破性解决方案。作者发现标准Softmax交叉熵损失(softmax cross-entropy loss)存在非可识别性缺陷,会导致任务间权重失衡。通过提出两种创新策略——不平衡不变蒸馏损失(imbalance-invariant distillation loss)和位移敏感正则化(shift-sensitive regularization),显著提升了LWF/LWM/LUCIR等框架的性能(CIFAR-100实验显示准确率提升11.5-12.8%,遗忘率降低13.8-16.8%)。

  

Highlight

相关研究

本节概述了增量学习(IL)领域的研究进展。IL系统需要持续学习新任务(如生物医学图像分类)同时保留旧任务(如病理诊断)知识。现有方法主要分为两类:基于正则化的方法(如EWC通过权重冻结)和基于记忆回放的方法(如存储少量旧任务样本)。

增量学习框架

我们采用标准IL设定:模型依次学习m个任务,每个任务t拥有专属数据集Dt和类别索引Ct。关键假设包括:1)任务数据非重叠分布;2)测试时需评估所有历史任务表现——这对临床决策支持系统至关重要。

Softmax的位移不变性

研究发现最后一层logit输出o(2)(x,ψt)=Aγ(x,μt)+b存在固有缺陷:Softmax函数的位移不变性导致自由参数κs无法确定(1≤s≤t)。这些参数会指数级放大任务间权重差异(eκs),如同"记忆放大器"般加剧灾难性遗忘。

改进增量学习

我们开出两剂"药方":1)新型二元预测损失(binary predictive loss),能敏感捕捉位移参数κ;2)位移敏感蒸馏损失(shift-sensitive distillation loss)。就像给神经网络装上"平衡仪",这些方法使优化问题可识别,在阿尔茨海默病影像分类等场景展现优势。

数值研究

在CIFAR-100的10任务增量学习中,我们的方法使LWF/LWM/LUCIR准确率提升超过11%,遗忘率降低14-17%。附录A.3显示在医学图像数据集上同样保持显著优势。

结论

这项工作如同为IL系统安装了"防遗忘芯片",通过攻克Softmax非可识别性难题,为医疗AI持续学习系统提供了新范式。代码已开源(GitHub链接),助力精准医疗发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号